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Vorwort 



Der vorliegende Band enthalt den ersten Teil einer zweibandigen Einfiihrung in die 
Padagogisch-psychologische Diagnostik. Diese Einfuhrung wendet sich primar an 
Studierende mit Hauptfach Psychologie oder Erziehungswissenschaft im zweiten 
Studienabschnitt und ist als vorlesungsbegleitende Lektiire, aber auch als Leitfaden 
zur Priifungsvorbereitung gedacht, insbesondere fur die entsprechenden Ausschnitte 
der Facher “Padagogische Psychologie” und “Diagnostik” der Diplompriifung Psy- 
chologie. Im vorliegenden Band I geht es um allgemeine theoretische und methodi- 
sche Grundlagen, in Band II sollen Verfahren zu einzelnen inhaltlichen Bereichen 
vorgestellt und Anwendungsfelder im Sinn typischer diagnostischer Fragestellungen 
erortert werden. 

Zu den theoretischen und methodischen Grundlagen von Diagnostik gehoren u.E. 

(1) eine begriffliche Klarung dessen, was Diagnostik ist und soil, 

(2) die testtheoretischen Grundlagen, auf deren Basis diagnostische Verfahren ent- 
wickelt und beurteilt werden, und schlieBlich 

(3) eine Gegenstandsbestimmung und theoretische Einordnung dessen, was diagno- 
stiziert werden soli, sowie eine Reflexion der praktischen Rahmenbedingungen 
und der rechtlichen Grundlagen fiir die Anwendung. 

Dementsprechend gliedert sich der vorliegende Band in drei Teile. Die Teile I und 
III wurden von L. Tent verfaBt, Teil II wurde von I. Stelzl beigesteuert. Die vorgetra- 
genen Positionen und Argumente werden insgesamt von beiden Autoren vertreten. 
Teil I schafft die begriffl ichen Voraussetzungen und diskutiert die allgemeinen Grund- 
lagen Padagogisch-psychologischer Diagnostik: Geklart werden soil, was unter Pad- 
agogisch-psychologischer Diagnostik zu verstehen ist, wozu sie dient, wie sie vor- 
geht, was wir von ihr erwarten. Dazu wird in den Abschnitten 1.1 und 1.2 zunachst 
das Gebiet abgegrenzt und die Bedeutung von Diagnostik fiir das padagogische Han- 
deln herausgestellt. In 1.3 werden dann die bereits in der Alltagsdiagnostik enthalte- 
nen allgemeinen Grundprinzipien von Diagnostik sichtbar gemacht und in 1.4 die 
wesentlichen Elemente, Annahmen und Probleme professioneller Diagnostik heraus- 
gearbeitet. Dabei spielt der Begriff des Merkmals eine zentrale Rolle. Es wird eine 
Systematik von Merkmalsklassen vorgestellt, weiter wird die Beziehung von Verhal- 
tensmerkmalen zu Konstrukten und die Bedeutung von Konstrukten fiir die diagno- 
stische Praxis behandelt. Verhalten wird dabei als Resultante aus Personmerkmalen 
und situativen Umweltbedingungen aufgefaBt, und die Varianz als zumindest im Prin- 
zip diesen Varianzquellen entsprechend aufteilbar gedacht. Neben der Prazisierung 
der Merkmale werden die Prazisierung der MeBoperation (Standardisierung, Okono- 
misierung, MeBgenauigkeit) und die Verifizierung diagnostischer Aussagen als we- 
sentliche Kriterien professioneller Diagnostik herausgestellt, was dann in Teil II 
unter testtheoretischen Gesichtspunkten naher erortert wird. Teil I schlieBt als Haupt- 
ergebnis mit einer zusammenfassenden Definition von Padagogisch-psychologischer 
Diagnostik und einer Definition des Begriffs “psychologischer Test”. 

Teil II ist den testtheoretischen Grundlugen gewidmet. Ein Ziel dieses Abschnitts 
liegt darin, die Begriffe und Methoden zu erlautem, die in fast alien Testhandanwei- 
sungen auftauchen: Das sind zum einen Begriffe aus der klassischen Testtheorie, zum 
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Vorwort 



anderen klassische multivariate Verfahren. Dartiber hinaus soil ein Uberblick tiber 
testtheoretische Entwicklungen und Kontroversen gegeben werden, soweit sie fur die 
Padagogisch-psychologische Diagnostik relevant sind. 

Wenn in den Kapiteln 2 bis 5 klassische Testtheorie und multivariate Verfahren be- 
handelt werden, so kann das hier sicher nicht in dem Umfang und auf dem mathema- 
tischen Niveau erfolgen, das man in der Diagnostikpmlung im Hauptdiplom Psycho- 
logic anstrebt. Dazu muB auf gesonderte Lehrveranstaltungen bzw. Lehrbiicher ver- 
wiesen werden. Kapitel 2 ist als ein Leitfaden der wichtigsten Begriffe der klassischen 
Testtheorie zu lesen; die Kapitel iiber multivariate Verfahren sind auf elementarem 
Niveau gehalten, so daB sie auch von Studierenden ohne einschlagige Vorkenntnisse 
und Interessenten aus benachbarten Gebieten verstanden werden sollten. Ziel ist es, 
die Grundgedanken dieser multivariaten Verfahren und mogliche Anwendungen in der 
Padagogisch-psychologischen Diagnostik so weit erkennbar zu machen, daB eine 
kritische Auseinandersetzung moglich ist. Trotz des einfiihrenden Niveaus sollte der 
Text auch Lesern mit starkeren Vorkenntnissen noch etwas zu bieten haben: Es wird 
Wert darauf gelegt, speziell die Punkte darzustellen, die Gegenstand von Kontrover- 
sen waren oder sind (z.B. die Populationsabhangigkeit der klassischen Gutekriterien 
oder die Rolle der Normalverteilung in Kapitel 2; die Einwande gegen die klassische 
Faktorenanalyse und die Grenzen der konfirmatorischen Faktorenanalyse im Kapi- 
tel 4), sowie auf Anwendungsgesichtspunkte einzugehen, die in rein formal orientier- 
ten Darstellungen manchmal zu kurz kommen (z.B. Kapitel 3: Fragestellungen und 
Fehlerrisiken bei der Interpretation von Differenzen in Testprofilen; Probleme bei der 
Interpretation von Gruppenprofilen als Anforderungsproftle; Kapitel 5: Konnen die 
Anforderungen an die klassischen Gutekriterien niedriger angesetzt werden, wenn der 
Test “nur” Forschungszwecken dient?). 

Kapitel 6 enthalt drei unterschiedliche Abschnitte, die mit der Absicht geschrieben 
sind, tiber Entwicklungen zu informieren, die nicht unbedingt zum Standardwissen 
aus einer Testtheorie-Veranstaltung gehoren. Alle drei Themen bewegen sich im be- 
grifflichen Ansatz der klassischen Testtheorie und haben jeweils einen spezifischen 
Bezug zur Padagogisch-psychologischen Diagnostik: Die Theorie der Generalisier- 
barkeit (Abschnitt 6.1) bietet sich als begrifflicher Rahmen an, wenn z.B. bei Schul- 
leistungstests representative Aufgabenstichproben gezogen werden sollen, um dann 
zu fragen, wie von den vorliegenden Aufgaben auf die Grundgesamtheit aller Aufga- 
ben generalisiert werden kann. In 6.2 wird die Diskussion um kriterienorientierte vs. 
normorientierte Messung dargestellt, die speziell im Zusammenhang mit der Kon- 
struktion lehrzielorientierter Tests gefuhrt wurde. In 6.3 geht es um den Versuch, mit 
methodischen Mitteln den Begriff der Testfaimess (Fairness gegeniiber sozial benach- 
teiligten Gruppen) zu deftnieren und damit die Grundlage fur empirische Untersu- 
chungen zur Frage der Testfaimess zu schaffen. 

Kapitel 7 enthalt die Grundzitge und wichtigsten Modelle der sog. probabilisti- 
schen Testtheorie (Latent-Trait-Modelle). Die Beschrankung der Darstellung fiel hier 
nicht leicht, weil gerade dieses Gebiet den Reiz der Aktualitat hat und die Entwick- 
lung noch nicht voll abgeschlossen ist. In Hinblick auf einen maBigen Gesamtumfang 
und ein mittleres Anforderungsniveau erschien eine Behandlung von Detailfragen aus 
laufender Forschung nicht angebracht. Die Auswahl erfolgte primar unter dem Ge- 
sichtspunkt, daB Anwendungen aus dem Bereich der Padagogisch-psychologischen 
Diagnostik bereits vorliegen oder sich unmittelbar abzeichnen sollten. Auf weitere Va- 
rianten und auf Verbindungen zwischen den Modellen wird nur hingewiesen. 




Vorwort 



Kapitel 8 behandelt adaptives Testen und baut insofern auf Kapitel 7 auf, als mit 
Hilfe der Latent-Trait-Modelle das Problem gelost werden kann, wie Punktwerte trotz 
von Proband zu Proband unterschiedlicher Aufgabenauswahl zu vergleichen sind. 

Das letzte Kapitel in Teil II ist Fragen der Veranderungsmessung gewidmet. In 9.1 
werden zunachst formale Ansatze dargestellt, u.a. spezielle Modelle, die im Rahmen 
des Latent-Trait-Ansatzes zur Erfassung von Lernprozessen entwickelt wurden. An- 
schlieBend werden mehr inhaltlich orientierte Ansatze, wie die Vorschlage zur Kon- 
struktion anderungssensitiver Tests und die Entwicklung spezieller Lerntests behan- 
delt. Dabei wird in groben Ziigen auch iiber inhaltliche Erfahrungen berichtet. In 9.2 
wird die Evaluationsforschung als Anwendungsbereich besonders herausgegriffen. 
Hier tritt zu den testtheoretischen Fragen der Veranderungsmessung als Kernfrage das 
Problem hinzu, ob die diagnostizierten Veranderungen der zu evaluierenden MaBnah- 
me zuzuschreiben sind. Anhand von drei Beispielen soli deutlich gemacht werden, 
welche methodischen Probleme dabei auftreten konnen und weshalb wissenschaftlich 
fundierte Evaluationsforschung nicht durch Alltagserfahrung und daran angelehnte 
“natiirliche’' Methoden ersetzt werden kann. 

Nachdem in Teil I die allgemeinen begrifflichen und theoretischen Voraussetzun- 
gen und in Teil II die testtheoretischen Grundlagen behandelt wurden, wird in Teil III 
der Gegenstand Padagogisch-psychologischer Diagnostik naher beleuchtet, und es 
werden allgemeine Probleme und Voraussetzungen der Anwendung diagnostischer 
Verfahren erortert. Kapitel 10 behandelt den Begriff der Schulleistung als zentrales 
Konstrukt Padagogisch-psychologischer Diagnostik und erlautert seine Beziehungen 
zu kognitiven, motorischen, sozialen, affektiven und motivationalen Lehrzielen. Es 
wird ein Bedingungsmodell fur das Zustandekommen von Schulleistung vorgestellt, 
das als theoretische Grundlage und Interpretationsbasis dienen soil. Weiter werden 
allgemeine praktische Fragen angesprochen: die Frage nach dem zweckmaBigen Zeit- 
punkt und der Haufigkeit, mit der Diagnostik eingesetzt werden soil, Fragen nach 
Riickwirkungen diagnostischer Erhebungen auf den Schuler und auf den LernprozeB, 
die Frage nach Fehlerquellen und Fehlschliissen im UrteilsprozeB, denen sowohl der 
Lehrer in der alltaglichen Schiilerbeurteilung als auch der Psychologe bei der Gut- 
achtenerstellung unterliegen kann. 

Kapitel 11 schlieBt diesen Band ab. Es behandelt berufsethische und rechtliche 
Aspekte. Es werden sowohl allgemeine Grundsatze als auch spezifische Rechtsvor- 
schriften fur Lehrer und Psychologen, sowie Fragen der rechtlichen Zustandigkeit er- 
lautert. 

Der geplante zweite Band wird sich mit einzelnen inhaltlichen Anwendungsberei- 
chen befassen. Es sollen diagnostische Verfahren fur bestimmte Bereiche besprochen 
werden: zur Diagnose kognitiver Lernvoraussetzungen (Schuleingangstests, allgemei- 
ne und spezielle Intelligenztests u.a.), zur Diagnose emotionaler, motivationaler und 
sozialer Lernvoraussetzungen (Personlichkeits-, Einstellungs- und Interessentests), 
zur Diagnose von Wissen, Kenntnissen und Fertigkeiten (Schulleistungstests) sowie 
zur Diagnose spezieller Verhaltensauffalligkeiten. Weiter sollen die wichtigsten An- 
wendungsfelder im Sinn typischer diagnostischer Fragestellungen (Schuleingangsdia- 
gnostik. Diagnose der Eignung fur weiterfiihrende Schulen, Sonderschulbediirftigkeit, 
Studieneignung und Hochschulzulassung, auBerschulische Erziehungsberatung) be- 
handelt werden. SchlieBlich soli zu Testkritik und Einwanden gegen Padagogisch- 
psychologische Diagnostik Stellung genommen werden. 




Vorwort 



Wir haben folgenden Mitarbeiterinnen, die an der Fertigstellung von Band I betei- 
ligt waren, zu danken: Frau Weskamm fur das Anfertigen der Abbildungen und die 
Mithilfe beim Korrekturlesen, Frau Groll und Frau Schmitt fur das Schreiben des 
Manuskripts. 

Marburg, im’ November 1992 Lothar Tent Ingeborg Stelzl 




Inhaltsverzeichnis 



Teil I Theoretische Grundlagen (L. Tent) 13 

1. Grundlegende Annahmen und Definitionen 15 

1.1 Bezeichnung des Gebiets 15 

1.2 Allgemeine padagogische Grundlagen 16 

1.3 Alltagsdiagnostik 18 

1.4 Professionelle psychologische Diagnostik 20 

1.4.1 Prazisierung der Merkmale 22 

1.4. 1.1 Person und Merkmal 22 

1.4. 1.2 Anlage und Umwelt 23 

1.4. 1.3 Kollektiv und Individuum 26 

1.4. 1.4 Diagnostische Konstrukte 27 

1.4. 1.5 Person, Situation und aktuelle Befindlichkeit 28 

1.4.2 Prazisierung der MeBoperationen 30 

1.4.2. 1 Standardisierung, Okonomisierung und MeBgenauigkeit 30 

1.4. 2. 2 VergleichsmaBstabe 32 

1.4.3 Verifizierung diagnostischer Aussagen 33 

1.5 Zusammenfassung und Definition von Diagnostik 35 



Teil II Testtheoretische Modelle (1. Stelzl) 39 

2. Grundziige der klassischen Testtheorie 41 

2.1 Grundbegriffe der klassischen Testtheorie: Beobachteter Wert, 

wahrer Wert, MeBfehler 41 

2.2 Die Giitekriterien der klassischen Testtheorie 4 3 

2.2.1 Objektivitat 4 4 

2.2.2 Reliabilitat 45 

2.2.3 Validitat 48 

2.2.4 Beziehungen zwischen Reliabilitat und Validitat 51 

2.3 Zur Populationsabhangigkeit der klassischen Giitekriterien 5 2 

2.4 Die Rolle der Normalverteilung in der Testtheorie 55 

2.5 Die Normierung von Testwerten 57 

3. Die Interpretation von Testbatterien 63 

3.1 Zum Gesamttestwert 6 3 

3.2 Zur Interpretation von Untertest-Differenzen 65 

3.3 Zur Interpretation von Gruppenprofilen als Anforderungsprofile 7 4 




10 



I n h al tsverz ei ch n i s 



4. 

4.1 

4.1.1 

4.1.2 

4.2 

4.2.1 

4.2.1. 1 

4.2.1.2 

4.2.2 

4.2.3 

4.3 



5. 



5.1 

5.2 

6 . 

6.1 

6 . 1.1 

6 . 1.2 
6.2 
6 . 2.1 
6 . 2.2 

6.2.3 

6.2.3. 1 

6 . 2 . 3. 2 

6.3 

6.3.1 

6.3.2 

6.3.3 



7. 

7.1 

7.2 

7.3 

7.4 

7.5 

7.6 



Multivariate Verfahren im Dienst der Testtheorie 77 

Verfahren zur Optimierung der Kriteriumsvorhersage 77 

Multiple Regression zur Maximierung der Kriteriumskorrelation 77 

Diskriminanzanalyse zur optimalen Trennung 

von Kriteriumsgruppen 81 

Faktorenanalyse zur Untersuchung der Konstruktvaliditat 85 

Grundannahmen der Faktorenanalyse 85 

Die Grundgleichungen 85 

Geometrische Darstellung, Rotationsproblem, 

Kommunalitatenproblem 87 

Haupteinwande gegen die Faktorenanalyse als erklarende Theorie 93 

Einsatzmoglichkeiten und Grenzen der konfirmatorischen 

Faktorenanalyse 96 

Einsatzmoglichkeiten und Grenzen der Clusteranalyse 106 

Anforderungen an die klassischen Giitekriterien bei der 
Verwendung von Tests in der Forschung Ill 

Reliabilitat, Objektivitat, Validitat Ill 

Normierung 115 

Weiterentwicklungen im Rahmen des klassischen Ansatzes 117 

Die Theorie der Generalisierbarkeit 117 

Grundgedanken der Theorie der Generalisierbarkeit 117 

Anwendungsmoglichkeiten 120 

Kriterienorientierte versus normorientierte Messung 123 

Die Zielsetzung kriterienorientierter Messung 124 

Die Auseinandersetzung mit der klassischen Testtheorie 124 

Spezifische Probleme lehrzielorientierter Tests 126 

Inhaltliche Validitat 126 

Das Binomialmodell und darauf aufbauende 

Klassifikationsstrategien 130 

Methodische Beitrage zum Problem der Testfaimess 134 

Das prognose-orientierte Testfairness-Konzept 134 

Probleme des prognose-orientierten Testfaimess-Konzepts 140 

Identitatskonzept und Quotenplane als Altemativen zum 
prognose-orientierten Testfaimess-Konzept 141 

Latent-Trait-Modelle 143 

Der Latent Trait-Ansatz 143 

Das Rasch-Modell 147 

Das linear-logistische Modell 15 1 

Das mehrkategoriale Rasch-Modell 153 

Das Bimbaum-Modell 156 

Dem Latent T rait-Ansatz verwandte Modelle 157 



8. Adaptives Testen 



.163 




Inhaltsverzeichnis 



11 



9. Spezielle Probleme der Veranderungsmessung 169 

9.1 Formale und inhaltliche Ansatze zur Messung von Veranderungen 169 

9.1.1 Die Darstellung von Veranderungen im Rahmen verschiedener 

testtheoretischer Ansatze 170 

9. 1.1.1 In der klassischen Testtheorie 170 

9. 1.1.2 Im einfachen Rasch-Modell 171 

9. 1.1.3 Im linear-logistischen Modell 171 

9. 1.1. 4 Im Latent-Class-Modell 174 

9.1.2 Anderungssensitivitat als Gesichtspunkt bei der Testkonstruktion 174 

9.1.3 Der Lemtest-Ansatz 178 

9.2 Methodische Probleme bei der Messung von Behandlungseffekten 

in der Evaluationsforschung 185 

9.2.1 Das Anliegen 186 

9.2.2 Beispiele (Probleme im Umgang mit Vortest-Nachtest-Differenzen, 

Probleme quasi-experimenteller Kontrolle) 187 

9.2.3 Braucht man zur Evaluation Forschung? 197 



Teil III Allgemeine Probleme und Voraussetzungen der 

Anwendung diagnostischer Verfahren (L. Tent) 203 

10. Padagogische und psychologische Aspekte 205 

10.1 Die Funktion Padagogisch-psychologischer Diagnostik 205 

10.2 Didaktischer Exkurs 207 

10.3 Schulleistung als Konstrukt 212 

10.4 Die Messung padagogisch-psychologischer Konstrukte 215 

10.5 Die diagnostischen Parameter 216 

10.6 MeBdichte und didaktische Ergiebigkeit 218 

10.7 Nebenwirkungen und Fehlerquellen 220 

10.7.1 Problematische Nebenwirkungen 220 

10.7.2 Inferenzfehler und Einstellungseffekte 223 

10.7.3 Theoriefehler 225 

10.7.4 Erinnerungs- und Urteilsfehler 226 

11. Berufsethische und rechtliche Aspekte 229 

11.1 Berufsethische Anforderungen 229 

11.2 Rechtsfragen 234 

11.2.1 Zur Zulassigkeit Padagogisch-psychologischer Diagnostik 235 

11.2.2 Zur rechtlichen Kontrolle diagnostischer MaBnahmen 236 

Literaturverzeichnis 2.41 

Autorenregister 252 

Sachregister 256 




1. Grundlegende Annahmen und Definitionen 



1. Welche Bedeutung hat die Diagnostik fiir pMagogiSthes Handeln, und wie 
lafit sich dies begriinden? 

2. Wodurch unterscheidet sich professioneile Diagnostik von Alltagsdiagnostik? 

3. Auf welche grundlegenden Annahmen stiitzt sich Diagnostik, und wie gelangt 
man zu moglichst genauen und zutreffenden Aussagen? 

4. Wie ist professioneile Padagogisch-psychologische Diagnostik zweckmaBig 
zu definieren? 



Vorstrukturierende Lesehilfe 

Erziehung und Unterricht sind Lebensbereiche, in denen Diagnostik eine besonders 
groBe Rolle spielt. Standig miissen padagogische Entscheidungen unterschiedlicher 
Tragweite getroffen werden. Ihre Wirksamkeit hangt u.a. davon ab, wie zutreffend die 
individuellen Lernvoraussetzungen und Fahigkeiten, aber auch die emotionale Ver- 
fassung und die motivationale Bereitschaft eines Schulers erkannt und beriicksichtigt 
werden. Obwohl Differenzierung und Individualisierung seit langem als Prinzipien 
der Unterrichtsorganisation anerkannt sind, ist der Status der professionellen Pad- 
agogisch-psychologischen Diagnostik hierzulande unbefriedigend. 

Die wissenschaftlich fundierte Diagnostik, wie sie sich seit grab einhundert Jah- 
ren entwickelt hat, fuBt auf der Alltagsdiagnostik. Die Alltagsdiagnostik ist jedoch in 
vieler Hinsicht unzulanglich. Die personlichkeitstheoretischen und methodischen 
Konzepte, die tragfahige Losungen fiir die meisten diagnostischen Fragestellungen 
moglich machen, werden erlautert. Eine wesentliche Rolle spielen dabei die Prazi- 
sierung der Merkmale und der MeBoperationen sowie die Verifizierung der diagno- 
stischen Aussagen. Die instrumentehe Qualitat der diagnostischen Hilfsmittel muB 
umso hoheren Anspriichen geniigen, je mehr von den Entscheidungen abhangt, zu 
deren Begriindung sie beitragen sollen. Das wichtigste Kriterium ist daher die empi- 
rische Validitat der Methoden. 

AbschlieBend wird Diagnostik als ein systematisches Vorgehen zur Gewinnung und 
Analyse von Merkmalsunterschieden an Personen definiert. 



1.1 Bezeichnung des Gebiets 

Die Bezeichnung "Padagogisch-psychologisch" im Text dieses Buches bringt zum 
Ausdruck, daB die Diagnostik, um die es hier geht, beides zugleich ist, padagogische 
und psychologische Diagnostik. Sie ist padagogisch, weil ihre Fragestellungen aus 
der Erziehungspraxis stammen und weil unser Text sich auf diese Praxis bezieht. 
Uberall da, wo es aus padagogischen Griinden notwendig oder ratsam ist, die indivi- 
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1 . Grundlegende Annahmen und Definitionen 



duellen Bedingungen und die Ergebnisse menschlichen Lernens zu kennen, und im- 
mer wenn individuelles Verhalten mit padagogischen Mitteln beeinfluBt werden soil, 
ist Diagnostik unerlaBlich. Diagnostische Tatigkeiten haben nicht nur einen betracht- 
lichen Anted am Unterrichtsalltag, ihnen kommt auch ein hoher, kaum zu tiberschat- 
zender Stellenwert zu: Ohne eine fundierte diagnostische Routine ware ein professio- 
neller, am Individuum orientierter Unterricht nicht moglich. Besonders sorgfaltige 
Diagnosen sind vonnoten, wenn unerwartete Schwierigkeiten im Verhalten und in den 
Leistungen von Schitlern auftreten und wenn wichtige, langfristig wirksame Entschei- 
dungen iiber die padagogische Behandlung von Schiilern zu treffen sind, z.B. bei der 
Einschulung, bei Umschulungen, bei Kurszuweisungen oder auch beim “Sitzenblei- 
ben”. 

Psychologisch ist diese Diagnostik deshalb, wed sie in der Regel Verhaltens- und 
Leistungsaspekte betrifft, die Gegenstand der theoretischen wie der empirischen Er- 
kenntnisgewinnung in der Psychologie sind. Fachhistorisch kommt hinzu, daB die dia- 
gnostischen Methoden und Theorien, iiber die wir heute verfiigen, vornehmlich von 
Psychologen entwickelt worden sind. Doch ware es miiBig, hier padagogische und 
psychologische Anteile auseinanderzudividieren. Die moderne Padagogisch-psycho- 
logische Diagnostik hat due Wurzeln selbstverstandlich in der iiberkommenen pad- 
agogischen Praxis. Aus deren diagnostischen Bediirfnissen ist sie entstanden, und sie 
dient nichts anderem, als eben diese Praxis zu verbessem. 

Es liegt deshalb nahe, statt von Padagogisch-psychologischer einfach von Pad- 
agogischer Diagnostik zu sprechen. Diese verkiirzende Bezeichnung ist vor etwa 20 
Jahren von Ingenkamp (vgl. 1985, S. 10) in Analogie zum angloamerikanischen edu- 
cational measurement/assessment eingefiihrt und von anderen Autoren aufgegriffen 
worden (z.B. Klauer, 1978; Siillwold, 1983). Die Verbindungen “heilpadagogische” 
bzw. “sonderpadagogische” Diagnostik waren ohnehin schon friiher gelaufig. Gegen 
die praktische Kurzform “Padagogische Diagnostik” ist nichts einzuwenden, solan- 
ge man sich bewuBt bleibt, daB Padagogische Diagnostik in der Regel - mit jeweils 
unterschiedlicher Akzentuierung - auch psychologische Diagnostik ist. 

Im Unterschied zur arztlichen Diagnostik, die vorwiegend auf die Feststellung 
(oder den AusschluB) krankhafter Abweichungen vom “Normal’ ‘-Zustand des Gesun- 
den oder Unauffalligen gerichtet ist, umfaBt die Padagogische Diagnostik die gesam- 
te Spannbreite der vorkommenden Zustande und Zusammenhange, die fur die indi- 
viduelle padagogische Behandlung aller Schuler bedeutsam sind. Zwar werden die 
erhobenen Daten auch in der Padagogischen Diagnostik auf Vergleichswerte bezogen, 
doch ziehen nicht nur die auffalligen, von einer Norm abweichenden, sondem grund- 
satzlich alle Werte je unterschiedliche padagogische Konsequenzen nach sich. Von 
wenigen Ausnahmen abgesehen, ist in der Padagogik - anders als in der Medizin - 
stets eine “Behandlung”, namlich eine bestimmte padagogische MaBnahme oder “In- 
tervention”, angezeigt. 

In den folgenden Abschnitten werden einige allgemeine padagogische und psycho- 
logische Grundlagen der Diagnostik kurz dargestellt. 

1.2 Allgemeine padagogische Grundlagen 

Ganz gleich, wer in dieser Praxis tatig ist, jede diagnostische Aktivitat ist eingebun- 
den in ein konkretes padagogisches Handlungsfeld. Dem Padagogen erscheint dies 
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selbstverstandlich; der Psychologe, der nicht zugleich auch padagogisch ausgebildet 
und erfahren ist, muB sich erst darauf einstellen und entsprechende Kenntnisse erwer- 
ben. In seiner allgemeinsten Bedeutung wird padagogisches Handeln zumeist als 
“Erziehen” bezeichnet. In diesem weiteren Sinne ist Erziehung als das intentionale 
Herbeifiihren relativ dauerhafter Veranderungen von Personmerkmalen durch men- 
tale Beeinflussung zu verstehen. Veranderung von Personmerkmalen bedeutet, indi- 
viduelle Ist-Zustande in neue, vorgegebenen Soll-Werten entsprechende oder ange- 
naherte Ist-Zustande zu iiberfuhren. Mentale Beeinflussung heiBt, daB die intendierten 
Veranderungen iiber kognitive Prozesse der Informationsaufnahme und -Verarbeitung 
herbeigefiihrt werden, die ihrerseits vom emotionalen und motivationalen Zustand des 
Lernenden abhangen. Ziel der Erziehung ist es, mengentheoretisch veranschaulicht, 
die Schnittmenge der Verhaltens- und Erlebenselemente von Lehrenden und Lernen- 
den systematisch zu vergroBern. Padagogische Effekte gehen aber nicht nur von der 
gezielten interpersonalen Beeinflussung aus. Andere Umweltbedingungen, nament- 
lich soziakulturelle Faktoren, wie Vorbild- und Medienwirkungen, tragen ebenfalls, 
wenn auch eher beilaufig, zum Erwerb oder zur Veranderung von Merkmalen bei (sog. 
funktionale Erziehung). 

Diese knappe Definition geniigt fur unsere Zwecke. Im Unterschied zu manchen 
padagogischen Definitionen von Erziehung ist sie insofern wertungsfrei, als sie iiber 
Wert oder Unwert der Ziele, Intentionen und Ergebnisse des padagogischen Handelns 
keine Vorentscheidung trifft. Sie ist zugleich offen in Richtung auf padagogisch-psy- 
chologische Verhaltensmodifikation oder Therapie, von der wir sprechen, wenn es um 
die mentale Beeinflussung von Ausgangszustanden mit Krankheitswert geht. Im Re- 
gelfall stellt Erziehen eine Art asymmetrischer sozialer Interaktion dar, deren beab- 
sichtigte (oder unbeabsichtigte) Wirkung sich stets auf Individuen richtet und nur an 
Individuen manifest werden kann. 

Der padagogische Grundsatz, dabei die individuelle Eigenart der Kinder zu beach- 
ten, ist alt. Ideengeschichtlich geht er in der Neuzeit auf den kiinstlerischen und in- 
tellektuellen Individualismus der Renaissance und des Humanismus zuriick. Zahlrei- 
che Denker haben seither die padagogische Bedeutung des I ndi vi dual itatspri nzi ps 
hervorgehoben und prazisiert. Schon der groBe Padagoge Amos Comenius (1592- 
1670), dem es eigentlich um eine breit angelegte Massenerziehung ging, hat gefor- 
dert, neben dem Alter auch die Unterschiede in der Begabung (Veranlagung) und im 
Lernfortschritt der Kinder systematisch zu beriicksichtigen. Er formuliert bereits di- 
daktisch differenzierte Vorschriften, die im wesentlichen bis heute Bestand haben. 
Dem Kulturkritiker und Aufklarer Jean Jacques Rousseau (1712-1778) wird die psy- 
chologisch bedachtsame Forderung der natiirlichen Individualitat des Kindes zum 
Angelpunkt fur eine tiefgreifende Umgestaltung der Gesellschaft. Der bekannte 
Schweizer Erzieher Johann Heinrich Pestalozzi (1746-1827) hat dann den zentralen 
padagogischen Begriff der “Individuallage” gepragt. Darin werden die zeitgeschicht- 
lichen, die gesellschaftlichen und materiellen Umweltverhaltnisse, in die ein Kind 
hineingeboren wird, mit den personalen Aspekten seiner Konstitution, seiner Urteils- 
fahigkeit, seiner Motivation und seiner Charaktereigentumlichkeiten zu einem dyna- 
mischen Gesamtkonzept vereint. Dessen psychologischer Kem besteht aus der Art 
und Weise, wie sich das Kind in seiner sozialen Umwelt erlebt. Pestalozzi fordert, daB 
alle Erziehung von der Individuallage des Kindes auszugehen hat. In bewuBter Ab- 
kehr von jeglichem Schematismus und Formalismus in der Padagogik wurde schlieB- 
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lich der Ruf “Vom Kinde aus” zur sinnfalligsten Maxime der Schulreformbewegung 
des ausgehenden 19. und beginnenden 20. Jahrhunderts (s. Dietrich, 1982). 

Mit der zunehmenden Verwissenschaftlichung vieler Lebensbereiche werden in 
dieser Zeit auch die ersten diagnostischen Verfahren im heutigen Sinne entwickelt. 
Mit ihrer Hilfe sollte die alte Forderung nach der Differenzierung des Unterrichts 
besser in die Praxis umgesetzt werden, als dies aufgrund des ublichen Riickgriffs auf 
die Alltagserfahrung von Lehrem und Eltem moglich erschien. Bezeichnenderweise 
vollzog sich ein wesentlicher Teil dieser fruhen Entwicklung innerhalb einer neuen 
Forschungsrichtung, die von ihren Verfechtern als “experimentelle Padagogik” be- 
zeichnet wurde (Ernst Meumann, 1862-1915; Wilhelm August Lay, 1862-1926). Sie 
zielte darauf ab, die Padagogik insgesamt zu einer (moglichst) exakten Wissenschaft 
auszubauen und die Erziehungspraxis auf ein empirisch gesichertes Fundament zu 
stellen (vgl. z.B. Lay, 1903; Meumann, 1907. Beide gaben seit 1905 die Zeitschrift 
fur Experimentelle Padagogik heraus). 

Differenzierung und Individualisierung sind heute unumstrittene Organisations- 
prinzipien fiir Schule und Unterricht. Die Padagogisch-psychologische Diagnostik hat 
seit der Jahrhundertwende, vor allem in den USA, einen bemerkenswerten Auf- 
schwung genommen. Trotz bedeutender Anteile deutscher Autoren an dieser Entwick- 
lung und trotz erheblicher Fortschritte in den letzten Jahrzehnten ist die Akzeptanz 
der standardisierten diagnostischen Verfahren (Tests und Fragebogen) im deutschen 
Sprachraum hinter den Moglichkeiten, die sie bieten, aus verschiedenen Griinden 
zuriickgeblieben (Tent, 1969, S. 28-33; Ingenkamp, 1985, S. 257-264). Zu diesen 
Griinden zahlen gewisse Unzulanglichkeiten, die selbst bei sorgfaltiger Konstrukti- 
on der Verfahren in Kauf genommen werden miissen, sowie ideologische Vorbehalte 
gegenuber der Funktion solcher Hilfsmittel und Probleme mit der sachgerechten Ver- 
wertung ihrer Ergebnisse (zur Kritik an der Padagogischen Testdiagnostik vgl. Ingen- 
kamp, 1989). Bis jetzt ist die wissenschaftlich begriindete Diagnostik bei uns weder 
in der Unterrichtspraxis noch in der Lehrerausbildung zur Selbstverstandlichkeit ge- 
worden. 

Der Verwissenschaftlichung von Praxis, allzumal der padagogischen, sind sicher 
Grenzen gesetzt. Aber auch in der Padagogik erfordert professionelles Handeln, prak- 
tische Entscheidungen wo immer moglich auf empirisch gesicherte Erkenntnisse zu 
stiitzen. Wenn man hier, wie andemorts, das Prinzip der Optimierung von Hand- 
lungsentscheidungen anerkennt, gibt es keine rationalen Griinde, auf dafiir geeignete 
Erkenntnismittel zu verzichten. Die Unvollkommenheit der Instrumente ist kein Ge- 
genargument, solange nachweislich bessere Alternativen nicht zur Verfiigung stehen 
und die bekannten Eigenschaften und Schwachen der Verfahren angemessen beach- 
tet werden. Der allgemeine triviale Grundsatz, das jeweils Bestmogliche zu tun, gilt 
hier ebenso uneingeschrankt wie der Grundsatz, empirisch und nicht ideologisch zu 
entscheiden, was unter gegebenen Bedingungen und im Hinblick auf gegebene Ziele 
das Bestmogliche ist. Dazu muB man die in Betracht kommenden Alternativen griind- 
lich genug kennen. 



1.3 Alltagsdiagnostik 

Diagnostische Urteile zu bilden, ist ein alltaglicher Vorgang. Wir beobachten und re- 
gistrieren die Erscheinung, das Auftreten und die sprachlichen AuBerungen anderer. 
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schatzen das Aufgenommene ein und schlieBen daraus auch auf “die Person”. Wir 
trachten danach, uns ein Bild vom anderen zu machen. Wir mochten wissen, mit wem 
wir es zu tun haben, “was fur ein Mensch” der andere ist, was wir kiinftig von ihm zu 
erwarten haben und wie wir uns am besten darauf einstellen. Wir haben erkannt, daB 
unser eigenes Handeln auf ganz bestimmte Fahigkeiten, Zielvorstellungen, Bediirf- 
nisse und Interessen zuriickgeht, und zumeist konnen wir die (oft widerstreitenden) 
Beweggriinde angeben, die uns veranlaBt haben, dieses oder jenes zu tun oder zu las- 
sen. Entsprechende Gedanken machen wir uns dariiber, weshalb sich andere so und 
nicht anders verhalten. Wir versuchen u.U., uns in den anderen “hineinzuversetzen”. 
Wir wollen ihn so gut wie moglich verstehen. Denn Verstandnis verschafft uns Sicher- 
heit; es vermittelt den Eindruck, dem anderen gerecht zu werden, besser mit ihm aus- 
zukommen und gezielter auf ihn einwirken zu konnen. Wir vergleichen zu diesem 
Zweck die Menschen miteinander und orientieren uns dabei an MaBstaben, die unse- 
rer eigenen Erfahrung oder dem iiberkommenen “diagnostischen Regelwissen” ent- 
stammen (z.B. “Stille Wasser griinden tief”, “Der Apfel fallt nicht weit vom Stamm”, 
“An seinem Umgang erkennt man den Menschen” usw.). 

Diese Vorgange werden uns am ehesten dann bewuBt, wenn es sich um jemanden 
handelt, mit dem wir in der Folgezeit haufig zusammentreffen wollen oder miissen, 
etwa wenn wir uns Freunde oder Partner aussuchen oder wenn z.B. ein Lehrer eine 
neue Klasse iibernimmt, bzw. Schuler einen neuen Lehrer bekommen. Wir neigen 
dazu, wiederholte Beobachtungen zu verallgemeinem, und je besser wir einen Men- 
schen zu kennen glauben, desto mehr gehen wir dazu iiber, ihm ganz bestimmte Fa- 
higkeiten und Eigenschaften zuzuschreiben. Die Alltagssprache enthalt eine nahezu 
unerschopfliche Fiille von Ausdrucken und Wortkombinationen, mit deren Hilfe wir 
Menschen, uns selbst eingeschlossen, “charakterisieren” konnen. Jemand, bei dem 
uns dies nicht recht gelingt, bleibt uns fremd; wir bezeichnen ihn dann z.B. als “ver- 
schlossen”, “in sich gekehrt” oder “undurchsichtig”. 

Selbstkritische Beobachter stellen in der Tat fest, daB es oft nicht einfach ist, zu 
schltissigen Ergebnissen zu gelangen. Sie machen die Erfahrung, daB nicht nur ein- 
zelne Menschen, sondern auch einzelne Verhaltensbereiche unterschiedlich gut ein- 
zuschatzen sind. Sie wissen, daB sie sich tauschen konnen und sind deshalb auch nicht 
tiberrascht, wenn das Erwartete nicht eintrifft. Sie hiiten sich, vorschnell zu urteilen 
und zu verallgemeinem. Sie bleiben bei vorsichtiger Vermutung, wo der Eilfertige 
sich schon eine feste Uberzeugung bildet. Sie bedenken, daB Menschen, vor allem 
Kinder, sich mitunter stark und manchmal schnell verandern konnen. Sie differenzie- 
ren von Fall zu Fall zwischen Verhaltensweisen, bei denen sich Anderungen oder 
Schwankungen bemerkbar machen, und solchen, die vergleichsweise stabil erschei- 
nen. 

Dem aufmerksamen Beobachter entgeht auch nicht, daB sich Menschen vielfach 
unterschiedlich verhalten, je nachdem, wem sie gegeniiberstehen, in welcher Situati- 
on und in welcher Verfassung sie sich befinden. Der einzelne Beurteiler ist kaum in 
der Lage, die ganze Spannbreite des Verhaltens anderer zu iiberblicken. Es kommt 
hinzu, daB die Fahigkeit, das Verhalten unserer Mitmenschen “richtig” zu deuten, 
offenbar nicht jedem in gleicher Weise gegeben ist. 

Zwar entwickeln wir schon als Kinder, im standigen Austausch mit den Menschen 
in unserer Umgebung, ein diagnostisches “Gespiir”, und mit wachsender Erfahrung 
verfeinern sich unsere diagnostischen Fertigkeiten und werden reichhaltiger. Und 
doch dauert es offenbar lange, bis wir jemanden “wirklich” kennen. So jedenfalls 
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belehrt uns das Sprichwort vom Scheffel Salz, den man erst mit ihm gegessen haben 
muB. Aber konnen wir uns iiberhaupt auf unsere Menschenkenntnis verlassen? 1st 
nicht jeder Mensch so unverwechselbar und einmalig mit seinem individuellen Wer- 
degang und seiner vielschichtigen Umwelt, daB jeder Versuch, ihm diagnostisch ge- 
recht zu werden, grundsatzlich scheitern muB? Die Literatur ist voller Widerspriiche. 
Sie spricht vom ewigen Ratsel, das der Mensch dem Menschen bleibe, aber auch da- 
von, daB das Erfassen nur eines Menschen in seiner ganzen Tiefe den Weg dazu er- 
offne, alle zu verstehen (s. Kasten S. 21). 



1.4 Professionelle psychologische Diagnostik 

Der Riickgriff auf die Alltagspraxis soil verdeutlichen, daB die wissenschaftlich be- 
griindete Diagnostik von heute in der Tat aus dieser Praxis hervorgegangen ist und 
nach wie vor enge Beziehungen dazu hat. In den Anfangen ihrer gut hundertjahrigen 
Geschichte stehen konkrete Fragestellungen aus dem klinischen und padagogischen, 
aus dem betrieblichen, dem forensischen und dem militarischen Bereich im Vorder- 
grund. Doch spielen auch mehr theoretische Interessen an interindividuellen Unter- 
schieden schon friihzeitig eine Rolle. Ihre theoretischen Grundlagen werden teils in 
unmittelbarem Zusammenhang mit der diagnostischen Praxis, teils erst nachtraglich 
entwickelt. 

Alle wesentlichen Elemente, Annahmen und Probleme der professionellen Diagno- 
stik sind in der diagnostischen Alltagspraxis vorgebildet oder lassen sich daraus her- 
leiten. Beide stiitzen sich auf das in den Grundziigen gleiche Personlichkeitsmodell. 
Danach kommt alien Menschen-ungeachtet ihrer Individualitat-dasselbe Spektrum 
psychophysiologischer Funktionen, Erlebnisqualitaten und Verhaltenskategorien zu, 
und danach lassen sich im beobachtbaren Verhalten Zusammenhange erkennen, die 
man in Regeln fassen kann. Beide gehen auf dasselbe menschliche Grundbediirfnis 
nach Uberschaubarkeit und Sicherheit der Lebensvollztlge zuriick, und beide dienen 
demselben allgemeinen Zweck: menschliches Verhalten “kalkulierbar” zu machen 
und durch moglichst zutreffende Vorhersagen die UngewiBheit im zwischenmensch- 
lichen Umgang zu reduzieren. 

Diagnostik ist selbstverstandlich nur ein Teil unseres Bemiihens, UngewiBheit zu 
verringem. In erster Linie wird dies durch iiberindividuell verbindliche, einheitliche 
Verhaltensrichtlinien wie Sitten und Gebrauche, Vertrage, Regeln, Normen und Sank- 
tionen bewirkt. Von daher ware “individuelles” Verhalten eher als ein nicht weiter 
reduzierbarer Unsicherheitsfaktor zu verstehen, der sich der Prognostizierbarkeit 
grundsatzlich entzieht. Fur die partielle Giiltigkeit dieses Arguments scheint die Tat- 
sache zu sprechen, daB die psychologische Diagnostik zwar die relativ besseren In- 
formationen liefert, in weiten Bereichen aber nach wie vor keine befriedigende Vor- 
hersage machen kann. 

Daraus zu folgern, man solle in der psychologischen und padagogischen Praxis auf 
griindliche Diagnosen verzichten, ware ein FehlschluB. Die allgemeine Erfahrung und 
die vielfach belegte Giiltigkeit diagnostischer Methoden sprechen gegen eine solche 
Auffassung. In wichtigen Teilbereichen menschlichen Verhaltens konnen wir offen- 
bar mit hinreichender intraindividueller Kontinuitat und mit hinreichender Bestandig- 
keit interindividueller Differenzen rechnen. Hinreichend heiBt, daB eine darauf ge- 
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Wie gut ist die Alltagsdiagnostik? 

(1) Meili (in Meili & Steingruber, 1978, S. 25-26) hat die Intelligenz dreier sechsjahri- 
ger Jungen mit deutlich verschiedenen IQ unter drei Bedingungen schatzen lassen. Die 
Beurteiler konnten sich auf Standfotos oder Filmaufnahmen stiitzen oder das reale Ver- 
halten der Jungen beobachten. Sie sollten die Jungen hinsichtlich ihrer Intelligenz in eine 
Rangordnung bringen. Die Ergebnisse waren nicht besser als der Zufall. Die drei Dar- 
bietungsarten unterschieden sich darin nicht (s. Tabelle). 

Beurteilung der Intelligenz nach Foto, Film und Natur; Einstufung in % 

(Richtige Beurteilungen kursiv). 



Intelligenz 




gut 


Foto 

mittel 


Darbietungsart 

Film 

schwach gut mittel schwach 


gut 


Natur 

mittel 


schwach 


Bester 


(IQ 


115) 28 


62 




17 50 33 


12 




41 


Mittlerer 


(IQ 


100) 


14 


21 


62 25 29 46 


47 


17 


36 


Schwacher 


(IQ 


77) 


58 


17 


25 58 21 21 


41 


36 
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(2) Schwieriger ist es, die Brauchbarkeit der Beurteilung von Temperamentsmerkmalen 
(Personlichkeitseigenschaften i.e.S.) zu uberprufen. Cohen (1969, Abschn. II) lieB mit 
Hilfe von 15 bipolaren Schatzskalen, die “Dominanz”, “Beliebtheit” und “Gewissenhaf- 
tigkeit” erfaBten, sowohl personlich bekannte als auch unbekannte Personen beurteilen. 
Von den unbekannten Personen lagen Fotos, Handschriften und Selbsteinschatzungen 
vor. Bei Einschiitzung aufgrund personlicher Bekanntschaft stimmten die Beurteiler 
zwar mit r = 0.34 im Mittel signifikant hoher irberein als bei Einschatzung anhand von 
Fotos, Handschrift und Selbsteinstufung; dies reicht jedoch als Grundlage flir die Giil- 
tigkeit von Eindrucksurteilen nicht aus. Auch bei simultaner Beurteilung mehrerer In- 
formationsquellen schwankten die Korrelationen im Mittel lediglich zwischen r = 0.03 
und maximal 0.27. 

(3) Die Ergebnisse der Forschung zur Zuverlassigkeit und Giiltigkeit (Validitat) diagno- 
stischer Eindrucksurteile hat Merz (1963, S. 44) wie folgt zusammengefaBt: 

“1. Die Zuverlassigkeit von Eindrucksurteilen ist, von Sonderfallen abgesehen, gering. 
Es wurden knapp mittlere Koeffizienten gefunden. Jedoch ergeben sich fast unter 
alien Umstanden gewisse Ubereinstimmungen zwischen verschiedenen Beurteilern, 
gleichgultig, wie unzureichend die zur Verfugung stehenden Informationen sein 
mogen. 

2. Die Validitat von Eindrucksurteilen ist verstandlicherweise noch geringer, es wur- 
den Koeffizienten zwischen etwa 0,00 und 0.50 gefunden. Auch bei deutlichen Uber- 
einstimmungen zwischen verschiedenen Beurteilern kann die Validitat gleich Null 
sein. 

3. Die Validitat von Beurteilungen steht nur in recht lockerem Zusammenhang mit ver- 
schiedenen Personlichkeitsmerkmalen der Beurteiler. Auch der Zusammenhang zu 
anderen unabhangigen Variablen ist gering. 

4. Der Inhalt der Beurteilungen ist enger an andere Bedingungen gebunden als an die 
Individualitat des Beurteilten. Solche Bedingungen sind u.a. die Eigenart des Be- 
urteilers, die Eigenart der sozialen Beziehung zwischen Beurteiler und Beurteiltem 
und allgemeine Faktoren, wie etwa Stereotype. 

5. Das auffalligste Einzelergebnis besteht wohl darin, daB die Validitat von Beurteilun- 
gen weitgehend unabhangig ist von Art und Umfang der Informationen, welche dent 
Beurteiler liber den Beurteilten zur Verfugung stehen.” 
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griindete Diagnostik Entscheidungen und Behandlungszuweisungen ermoglicht, die 
insgesamt zu nachweislich besseren Ergebnissen fiihren, als das bei Vemachlassigung 
dieser Erkenntnisquelle und Anwendung anderer Strategien der Fall ware. 

Aus wissenschaftspragmatischer Sicht ist dabei unerheblich, ob das deterministi- 
sche Menschenbild, das diesem Ansatz zu Grunde liegt, universell giiltig ist oder 
nicht. Die theoretische Leitvorstellung, daf.i wenn alle Bedingungen bekannt waren, 
auch alles vorhergesagt werden konnte, ist, auf menschliches Verhalten angewendet, 
eine durchaus zweckmaBige Utopie, zumal sie das Auftreten unvorhergesehener Er- 
eignisse keineswegs ausschlieBt. Ob die perfekte Vorhersage individuellen Verhaltens 
jemals Realitat wird (und ob sie wtinschenswert ist), kann vorlaufig offen bleiben. Es 
ist die gemeinsame Aufgabe von Forschung und Praxis zu erkunden, wie weit eine 
solche heuristische Generaltheorie tragt. Trotz seiner theoretischen und empirischen 
Unzulanglichkeiten ist dieser Ansatz ein gangbarer und erfolgversprechender Weg, 
den zu verlassen voreilig ware, solange es an nachweislich besseren Altemativen fehlt. 
Fur einen solchen Schritt ist die Geschichte der professionellen psychologischen Dia- 
gnostik zu kurz. 

Diagnostische Feststellungen, z.B. “Thomas ist gar nicht so dumm, wie wir anfangs 
dachten” oder “Thomas hat einen IQ von 104”, weisen Individuen einer Klasse von 
Personen zu, die sich in bestimmter Hinsicht untereinander gleichen oder ahneln. In 
diesem Beispiel wird behauptet, daB Thomas einer Klasse seiner Bevolkerung ange- 
hort, die man als durchschnittlich intelligent bezeichnet, unabhangig davon, wie stark 
sich die Mitglieder dieser Klasse im iibrigen, z.B. nach Alter, Geschlecht, sozialer 
Herkunft oder Lebenswandel, unterscheiden. 

Von dem Vorgehen im Alltag hebt sich die professionelle Diagnostik im wesentli- 
chen durch folgende Kriterien ab: 

(a) Prazisierung der Begriffe, insbesondere der Merkmale, die erfaBt werden sollen 

(b) Prazisierung der MeBoperationen durch 

- Standardisierung der Verfahren 

- Okonomisierung der Informationsaufnahme und -Verarbeitung 

- Bereitstellung von VergleichsmaBstaben 

(c) Verifizierung der diagnostischen Aussagen und der darauf gestiitzten Entschei- 
dungen. 

Auf diese Kriterien wird in den folgenden Abschnitten naher eingegangen. 



1.4.1 Prazisierung der Merkmale 

1.4.1.1 Person und Merkmal 

In der Personlichkeitstheorie wird “Person” als eine je einzigartige, unteilbare Ganz- 
heit mit vielschichtigen Beziigen zu sich und ihrer Umwelt verstanden. Psychologisch 
gesehen, sind Personen hochkomplexe, sich selbst bewuBte Systeme mit dem “Ich” 
als Zentrum des Erlebens und der Verhaltenssteuerung. Aus den bereits dargelegten 
Griinden konnte der Anspruch, solche individuellen ganzheitlichen Gefiige erschop- 
fend abzubilden, weder von der professionellen Diagnostik noch von irgendeiner 
anderen existierenden Diagnostik eingelost werden. Darauf bezogene Vorbehalte ge- 
geniiber der psychologischen Diagnostik sind auch deshalb unerheblich, weil wir uns 
in der Praxis je nach Fragestellung offenbar ohne zu groBen Informationsverlust auf 
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bestimmte Ausschnitte beschranken konnen. Unsere Aussagen kennzeichnen nicht die 
Person schlechthin, sie beziehen sich auf die Auspragung definierter Merkmale, die 
der betreffenden Person zusammen mit einer Vielzahl anderer Personen als Merk- 
malstrager zukommen. Dies gilt auch dann, wenn mehrere Einzelmerkmale zu einem 
Merkmals-Ensemble hoherer Ordnung integriert werden (z.B. “Petra ist hochgradig 
introvertiert’'). 

Mit “Merkmal’' ist ein fiir die Diagnostik zentraler Begriff eingefiihrt, der uns be- 
reits aus anderen Teilgebieten der Psychologie gelauftg ist. Im psychologischen 
Sprachgebrauch bezieht sich der Begriff “Merkmal’' (oder Variable) auf einen stabil 
unterscheidbaren Aspekt mit mindestens zwei Auspragungsvarianten, anhand derer 
Objekte gruppiert und Veranderungen an Objekten festgestel It werden konnen. Unter 
“Objekt” sind hier Personen, Verhaltensprodukte (z.B. schriftliche Klassenarbeiten) 
und Sachverhalte (z.B. “Hans wachst in einem anregungsarmen hauslichen Milieu 
auf ) zusammengefaBt. Die kaum tibersehbare Fiille von Merkmalen ist nach ver- 
schiedenen, sich mehrfach iiberschneidenden Gesichtspunkten zu ordnen. Gerade in 
der psychologischen Diagnostik miissen wir - aus theoretischen wie aus praktischen 
Griinden - auf eine solche Ordnung Wert legen, weil diagnostische Aussagen nur dann 
richtig formuliert und verstanden werden konnen, wenn Art, Qualitat und Funktion 
der Merkmale, fiir die Informationen vorliegen, sorgfaltig beachtet worden sind. Ta- 
belle 1 (S. 24/25) enthalt eine schematisierte Ubersicht tlber die wichtigsten Aspekte 
zur Unterscheidung diagnostisch relevanter Merkmalsklassen. 

Als Psychologen sind wir in erster Linie an Merkmalen interessiert, die den ein- 
zelnen Personen zukommen, insbesondere naturlich an psychologischen. Doch setzt 
die operationale Definition mancher psychologischer Merkmale, z.B. des IQ, die 
Kenntnis nicht-psychologischer Merkmale, vor allem von Zeit- und Altersvariablen, 
voraus, die dadurch die Funktion von unabhangigen Variablen erhalten. Ebenso kann 
die Bedeutung individueller diagnostischer Rohwerte durch andere biologische und 
soziographische Merkmale, wie Geschlecht, Krankheit, besuchter Schultyp, soziale 
oder ethnische Herkunft, und durch speziftsche Umweltvariablen, z.B. Kriminalitat 
des Vaters oder aktuelle Scheidungsauseinandersetzungen der Eltern, relativiert wer- 
den. 

1.4.1.2 Anlage und Umwelt 

Unter Umwelt verstehen wir die Gesamtheit aller Reize, die wahrend seines Febens 
auf ein Individuum wirken, wobei die Reizauswahl und die Reizwirkung durch die 
vom Individuum ausgehende Aktivitat mehr oder weniger mitbestimmt werden. Wir 
unterscheiden unscharf, aber zweckmaBig, drei Klassen von Umweltvariablen: phy- 
sikalisch-chemische (z.B. intrauterines Milieu; Klima, Wetter, Fuftqualitat), materi- 
elle (Versorgung mit Bedarfsgutern) und soziokulturelle (personale Beziehungen, 
mentale Anregungsbedingungen). Ferner unterteilen wir die Umweltvariablen nach 
der Dauer und Kontinuitat ihrer Anwesenheit, wiederum unscharf, in langfristig wirk- 
same und aktuelle (situative). Die Umweltfaktoren (U) sind offensichtlich am Zustan- 
dekommen des Verhaltens (V) von Personen beteiligt, doch wissen wir in den mei- 
sten Fallen nicht genau, wie das geschieht, welchen Anted sie daran haben und wie 
sie mit den genetischen Faktoren (G) zusammenwirken. 
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Tabelle 1.1: Vereinfachte Ubersicht liber diagnostisch bedeutsame Merkmalsklassen. 



Klassenbildender 

Gesichtspunkt 


Merkmalsklassen 


Beispiele 


Merkmalstrager 
und Objektbereich 


Person-Merkmale 

- biologische 

- soziobiographische 

- psychologische 


Geschlecht, KorpergroBe 
Sozialschichtzugehorigkeit 
kognitive Entwicklung 




Umwelt-Merkmale 

- physikalisch-chemische 

- materielle 

- soziokulturelle 


Lufttemperatur, Larmpegel 
Prokopf-Einkommen der Familie 
soziales Klima 


Datenherkunft 


direkt (am Pb) erhobene Merkmale 


Schulleistungstestergebnisse, Erfolgs-/MiB- 
erfolgsattribuierung, Verhaltensstile 




indirekt (liber den Pb) 

von Dritten erhobene Merkmale 


Auskiinfte von Lehrem, El- 
tem, Behorden (Akten) 


Anzahl der unter- 
scheidbaren Aus- 
pragungen 


altemativ (qualitativ) 
dichotomisiert 
mehrkategorial (qualitativ) 
kontinuierlich 


Geschlecht, rechts/links 
oberhalb/unterhalb des Medians 
Berufe. Konfessionszugehorigkeit 
Alter, Intelligenz, Extraversion 


Skalenniveau 


nominalskaliert 

ordinalskaliert 

intervallskaliert 

Verhaltnisskala 


Beruf des Vaters/der Mutter 
soziale Hierarchien (Hack- 
ordnungen), Praferenzen 
IQ, emotionale Stabilitat 
Alter. KorpergroBe 


Verteilungsform 


normalverteilte Merkmale 
nicht-notmal-, z.B. asymmetrisch 
verteilte Merkmale 


IQ, Angstlichkeit, Konzentrationsleistungen 
Schulnoten in der Grund- 
schule, Fehlerzahlen 


MeBgenauigkeit 


Merkmale mit hoher innerer 
Konsistenz 


kognitive Leistungsgeschwindigkeit, 
IQ, Extraversion 




Merkmale mit geringer innerer 
Konsistenz 


Aggressivitat im PFT, die meisten 
Merkmale in Formdeuteverfahren 


Dauerhaftigkeit der 
Merkmalsauspragung 


langerffistig stabile Merkmale 

(periodisch) schwankende Merkmal 
kurzffistige, aktuelle Merkmale 


Intelligenz Jugendlicher, 
Introversion/Extraversion 
Verstimmtheit, Wohlbehagen 
Zustandsangst, Erregtheit, 
Arger, Mudigkeit, Freude 


Komplexitatsgrad 


hoch komplexe (mehrdimensionale) 
Merkmale 


Intelligenz, Interessenspektrum, 
Schulerfolg 




typologisch geblindelte Merkmale 


Extraversion/Introversion, 
Neurotizismus, Maskulinitat 




“einfache” (eindimensionale) 
Merkmale 


Sehscharfe, feinmotorische 
Steuerung, erlebte elterliche Strenge 


Generalisierungsbreite 


situationsiibergreifende Merkmale 


emotionale Labilitat, Intelligenz, Rigiditat 




situationsgebundene Merkmale 


spezielle berufliche Fertigkeiten, 
Phobien, Prlifungsangst, spezielle 
Einstellungen 


Instrumentelle 

Funktion 


abhangige Merkmale (Kriterien) 
unabhangige Merkmale (Pradiktoren) 
deskriptive Merkmale 


Schulleistung von IQ 
Schulleistung fiir Lebenserfolg 
Schulversagen 




explikativ verwendete Merkmale 
Moderatorvariablen 


soziale Deprivation fiir Schulversagen 
Motivation im Zusammenhang von IQ und 
Schulleistung 


Diagnostische 
Relevanz 
(relative Validitat) 


hoch valide Pradiktoren 
gering valide Pradiktoren 


Intelligenz fur Mathematikleistung, 
Vorkenntnisse 

Selbstbild und Verhaltensstile fiir 
Zeugnisnoten 
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Fortsetzung von Tabelle 1.1: 



Klassenbildender 

Gesichtspunkt 


Merkmalsklassen 


Beispiele 


Theoretischer Status 
(diagnostische Aussage- 
ebene) 


beobachtete Merkmale (Verhal- 
ten und Verhaltensprodukte) 

Indikatorvariablen 

erschlossene Merkmale 
(latente Merkmale, Konstrukte, 
intervenierende Variablen, 
Dimensionen, Dispositionen) 


Schreibgeschwindigkeit, Lesefehler, Ge- 
dachtnisleistungen, Testrohwerte, Aufsatze 

Zeugnisnoten, IQ 

kognitive Leistungsfahigkeit 
(g-Faktor), Sprachverstandnis, Lei- 
stungsmotivation, Eigenschaften wie 
Zuverlassigkeit, Hilfsbereitschaft 



Unsere allgemeine Vorstellung, derzufolge jedes menschliche Verhalten als eine 
Funktion von Anlage- und Umweltfaktoren zu verstehen ist, 

[1.11 V = f(G,U) 

wird nach dem gegenwartigen Erkenntnisstand gewohnlich durch die Modellan- 
nahme spezifiziert, daB sich die empirische Varianz (Var) eines psychologischen 
Merkmals (X) additiv aus genetischen Anteilen (G), Umweltanteilen (U), den Kova- 
rianzen (Cov G,U) zwischen diesen Komponenten sowie den Wechselwirkungs- 
(G . U) und MeBfehleranteilen (E) zusammensetzt. Unter der Voraussetzung, daB au- 
Ber dem MeBfehler auch die Wechselwirkungskomponente mit den anderen Anteilen 
nicht korreliert, ergibt sich folgende Varianzzerlegung: 

[1,2] Var(X) = Var(G) + Var(U) + 2Cov(G,U) + Var(G.U) + Var(E). 

Obwohl diese Gleichung fur psychologische Merkmale bis jetzt nicht befriedigend 
ausgefullt werden kann, hat sie neben ihrer theoretischen Bedeutung auch eine un- 
mittelbare praktische Konsequenz fur die Diagnostik: Sie verbietet in der groBen 
Mehrzahl der Falle die “atiologisch” einseitige Interpretation psychologischer Befun- 
de. Ob, bzw. wieweit z.B. ein festgestellter Riickstand in der Sprachentwicklung bei 
im iibrigen unauffalliger Intelligenz auf das hausliche Milieu des Kindes, auf erwor- 
bene organische Mangel oder auf genetische Faktoren zurirckgeht, ist den Testwerten 
nicht zu entnehmen und auch anhand von Anamnesedaten vielfach nicht zu entschei- 
den. 

Doch selbst wenn eine Gleichung vom Typ [1.2] fur ein Merkmal in einer Bevol- 
kerung vorlage, ware zu berircksichtigen, daB die Elemente der Gleichung von Indi- 
viduum zu Individuum unterschiedliche Werte annehmen konnen und wir die Zusam- 
mensetzung im Einzelfall kennen miiBten. AuBerdem ist damit noch nicht gesagt, was 
die aufgeklarten Varianzanteile im Hinblick auf die Moglichkeit bedeuten, das regi- 
strierte Verhalten durch gezielte Beeinflussung zu verandern (Merz & Stelzl, 1977). 

Selbst wenn wir sicher sein konnten, daB z.B. die kognitive Leistungsfahigkeit, wie 
sie in Intelligenztests gemessen und im IQ zusammengefaBt wird, im Mittel zu hoch- 
stens 20 % durch Umwelteinflusse determiniert ist, bliebe offen, welche padagogi- 
schen Handlungsspielraume damit eroffnet wiirden. Die Gleichsetzungen “genetisch 
bedingt = schwer beeinfluBbar” und “umweltbedingt = leicht beeinfluBbar” gelten nur 
eingeschrankt. Organische Mangel, die das Lernen erschweren, konnen auf geneti- 
schen Faktoren beruhen, aber auch die Folge von Umwelteinwirkungen sein. Es 
kommt hinzu, daB die Wirksamkeit padagogischer Behandlung vom Lebensalter als 
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einer wichtigen Moderatorvariablen abhangen kann. Offenbar gibt es auch in der 
menschlichen Entwicklung so etwas wie “sensible Phasen”, in denen stabile Verhal- 
tensmuster leichter als nachher oder vorher erworben werden konnen (z.B. Urvertrau- 
en, Spracherwerb, Sozialverhalten). 

Mit Vorbehalt lassen sich die verschiedenen Verhaltensbereiche allenfalls in eine 
sehr grobe, komplementare Rangfolge ihrer Determiniertheit durch Anlage und Rei- 
fung bzw. durch Umwelteinflusse und Lernen bringen. An deren einem Ende mit den 
hochsten genetischen Anteilen und relativ geringer individueller Variabilitat befinden 
sich die Reflexe und das Instinktverhalten, abnehmend liber die Psychomotorik, die 
Intelligenz und Personlichkeitsmerkmale i.e.S. bis hin zum anderen Ende mit Einstel- 
lungen, Gewohnheiten, Meinungen und z.B. der Konfessionszugehorigkeit, bei de- 
nen es unmittelbar einleuchtet, daB hier die Umwelteinflusse eine deutlich groBere 
Rolle spielen. 

1.4.1.3 Kollektiv und Individuum 

In diesem Zusammenhang ist an ein weiteres, analoges Problem zu erinnern, das die 
Diagnostik direkt betrifft. In der Praxis beruhen viele individualdiagnostische Urtei- 
le, vor allem Verhaltensvorhersagen, auf ideographischen Riickschlussen aus Daten- 
verhaltnissen, die theoretisch wie empirisch flir Kollektive gelten. Wird z.B. die 
Empfehlung, ein schulpflichtig gewordenes Kind besser noch nicht einzuschulen, u.a. 
auf das schwache Abschneiden in einem Schuleingangstest gestiitzt, ist unbekannt, ob 
dieses Kind zu denen gehort, fur die die Prognose aufgrund der substantiellen Korre- 
lation zwischen Testergebnis und Schulerfolg zutrifft, oder ob es der Gruppe von 
Kindem angehort, fur die sich - aufgrund welcher Randbedingungen auch immer - 
die Vorhersage nachtraglich als falsch erweisen wiirde. Da wir empirisch nie mit per- 
fekter Abhangigkeit rechnen konnen, hat dies zur Folge, daB wir grundsatzlich nicht 
wissen, ob die Vorhersage im Einzelfall zutrifft oder nicht. Die Kennwerte der Kol- 
lektive haben lediglich die Funktion von Erwartungswerten fur eine Vielzahl von 
Einzelfallen. Dieses Problem ist bislang nicht befriedigend zu losen, auch nicht, oder 
nur sehr bedingt, liber individuelle MeBwiederholungen im Sinne der psychometri- 
schen Einzelfalldiagnostik (s. Abschnitt 9.1). Wir miissen uns mit dem Nachweis 
begniigen, daB wir je nach gegebener Datenlage, insbesondere nach MaBgabe der 
Korrelation zwischen den Variablen, bei einer groBeren Zahl von Urteilen insgesamt 
weniger Fehler begehen, als dies bei Anwendung anderer verfiigbarer Entscheidungs- 
Strategien der Fall ware. Dies ist eine der unvermeidlichen Konsequenzen aus der 
erwahnten Beschrankung unseres Erkenntnisspielraums. 

Auch diese allgemeinen Charakteristika psychologischer Merkmalszusammenhan- 
ge sind bei der Formulierung diagnostischer Befunde zu beachten. Unabhangig von 
ihrem Verwertungszweck sind diagnostische Aussagen in der Regel zunachst deskrip- 
tive Feststellungen, die sich auf den Ist-Zustand von Merkmalsauspragungen und 
deren Verkniipfung an Individuen beziehen. Wie prazise unsere Aussagen sein kon- 
nen und welche SchluBfolgerungen sich daraus ziehen lassen, hangt von der Qualitat 
der Daten, d.h. von der Beschaffenheit der benutzten Verfahren und von den Unter- 
suchungsbedingungen ab. 
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1.4.1.4 Diagnostische Konstrukte 

In diesem Zusammenhang wird deutlich, daB psychologische Merkmale nichts unmit- 
telbar Gegebenes sind. Ein Merkmal ist in jedem Fall die begriffliche Fassung eines 
Aspekts, in dem sich Individuen voneinander und zu verschiedenen Zeiten unterschei- 
den konnen. Das begriffliche Abstraktionsniveau kann dabei zwischen der Wieder- 
gabe eines unmittelbar beobachteten Verhaltens, z.B. sich-Melden im Deutschunter- 
richt am Freitag letzter Woche, und erschlossenen theoretischen Konstrukten, wie 
“Ferneifer”, “SelbstbewuBtsein”, und “Geltungssucht’', variieren. Den unterschied- 
lichen Aussageebenen entsprechen Unterschiede im theoretischen Status der Aussa- 
gen. le hoher das Abstraktionsniveau, desto mehr Implikationen sind darin enthalten. 

Konstrukte sind hier als eine Art sprachlicher Kiirzel zu verstehen, die inhaltlich 
definierte Bereiche (grundsatzlich) beobachtbaren Verhaltens von Individuen zusam- 
menfassen. Diagnostische Aussagen auf Konstruktebene stellen individualisierte Dis- 
positionspradikate dar (Herrmann, 1973). Unter Disposition wird die Bereitschaft zu 
bestimmten Handlungen bzw. eine (geniigend groBe) Wahrscheinlichkeit fur das Auf- 
treten einer bestimmten Klasse von Verhaltensweisen verstanden. So impliziert z.B. 
die Feststellung, “Steffi ist hoch leistungsmotiviert’', daB Steffi - unabhangig von der 
Qualitat ihrer Feistungen - seit einiger Zeit bemiiht ist und voraussichtlich auch wei- 
terhin bemiiht sein wird, bei einer Vielzahl verschiedener Feistungsanforderungen 
jeweils “ihr Bestes zu geben”. Solche Aussagen sind nur dann gerechtfertigt, wenn 
das betreffende Konstrukt, hier die uberdauemde Feistungsmotivation, als hinrei- 
chend gesichert gelten kann, und wenn sie sich auf MeBoperationen stiitzen, von de- 
nen vorgangig gezeigt worden ist, daB sie konstitutiv fur das Konstmkt sind. Konstruk- 
te gelten in dem MaB als empirisch gesichert, in dem unterscheidbare Ansatze zu ihrer 
operationalen Realisierung fur dieselben MeBwerttrager-Kollektive zu konkordanten 
Ergebnissen fiihren, im Idealfall, wenn sie sich als “methodeninvariant” erweisen. In 
der psychologischen Diagnostik ist dies bisher fur das Konstrukt “Intelligenz” am 
vergleichsweise besten gelungen. 

Wir unterscheiden demnach die hypothesengeleitete induktive Gewinnung der 
Konstrukte in der differentiell-psychologischen und diagnostischen Grundlagenfor- 
schung von ihrer deduktiven Verwendung in der diagnostischen Praxis. Es liegt auf 
der Hand, daB deren Ergebnisse insgesamt nicht besser ausfallen konnen, als es dem 
Konsolidierungs-Status der Konstrukte entspricht. Die Sicherung und die sachgerech- 
te Handhabung von Konstrukten ist ein Kernstiickprofessioneller Diagnostik. Fiir die 
Praxis ist es dabei nicht entscheidend, ob ein Konstrukt restlos auf empirisch beob- 
achtetes Verhalten reduziert werden kann. Eine solche Forderung strikt einzulosen, 
ist offenbar nicht moglich, aber auch nicht notig. Konstrukte konnen durchaus einen 
undeckbaren BedeutungsiiberschuB enthalten, jedenfalls solange und soweit sich mit 
ihren diagnostischen Ableitungen befriedigende Resultate erzielen lassen, d.h. solan- 
ge und soweit sich damit Verhaltensvorhersagen nachweislich verbessern lassen. 

Es ware allerdings ein MiBverstandnis, wenn man Konstrukte dieser Art als verur- 
sachende Instanzen im Sinne latenter Verhaltensdeterminanten interpretieren wollte. 
Die Aussage “Thomas kann gut denken, weil er uberdurchschnittlich intelligent ist”, 
ware eine bloB schein-kausale Verkniipfung tautologischer Argumente, denn Intelli- 
genz ist durch Denken-Konnen definiert. Doch ist es vertretbar, Konstrukte in quasi- 
explikativer Weise zu benutzen. “Da wir bei Thomas (u.a.) einen hohen IQ ermittelt 
haben, erwarten wir, daB er im Mathematikunterricht gut zurechtkommt”. Eine sol- 
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che Aussage stiitzt sich auf die Tatsache, daB die Wahrscheinlichkeit des Erfolges im 
Mathematikunterricht (unter sonst gleichen Bedingungen) deudich mit dem IQ zu- 
nimmt. Auch hierbei greifen wir lediglich auf eine “Wenn-Dann’'-Beziehung ( — ») 
im Sinne eines deskriptiv-empirischen Zusammenhangs zwischen operationalen Re- 
prasentanten der Konstrukte Intelligenz und Schulerfolg zuriick; seine Enge bemiBt 
sich an der Hohe eines Korrelationskoeffizienten. 

Ungeachtet seiner wissenschaftstheoretischen Belastung stellt das hier skizzierte 
Verstandnis von Konstrukten einen (vorlaufig) gangbaren Weg dar, in der Diagnostik 
Merkmale zu definieren und zu prazisieren, ohne daB dabei das dialektische Verhalt- 
nis von theoretischem und operationalem Zugang aus dem Blickfeld gerat. Damit 
steht uns - unabhangig von ihrer theoretischen und methodischen Ausgestaltung im 
einzelnen - eine tragfahige allgemeine Basis fur eine theoriegeleitete und zugleich 
handlungsorientierte Diagnostik zur Verfiigung. 

Ein Beispiel fur die Beziehung zwischen Verhaltensmerkmalen und Konstrukten 
ist in der Abbildung 1 (S. 29) wiedergegeben. Es verdeutlicht die verschiedenen Aus- 
sageebenen und den damit zunehmenden Abstraktionsgrad der Merkmale. Zugleich 
wird die Komplexitat von Stufe zu Stufe groBer. Dies beruht in diesem Ordnungsan- 
satz auf der empirischen Korrelation zwischen den Merkmalen. Zusammenfassungen 
dieser Art sind moglich und diagnostisch zweckmaBig, soweit gezeigt werden kann, 
daB die einbezogenen Merkmale miteinander systematisch hoher als mit anderen 
Merkmalen korrelieren. Das Beispiel orientiert sich an dem deskriptiv-hierarchischen 
Personlichkeitsmodell von Eysenck (z.B. 1975) und stiitzt sich auf Konstruktionsda- 
ten des Personlichkeitsfragebogens fur Kinder (PFK 9-14; Seitz & Rausche, 1976, 
1992). 

Weitere Moglichkeiten zur Bildung komplexer diagnostischer Klassen bestehen in 
der Gruppierung von Personen nach der Ahnlichkeit ihrer Merkmalsprofile. Die Grup- 
pen werden dabei so zusammengefaBt, daB die Mitglieder einer Gruppe sich mog- 
lichst ahnlich, die Gruppen untereinander moglichst unahnlich sind (Clusteranalyse; 
s. Abschnitt 4.3.). Dies spielt z.B. bei der Interaktion von Unterrichtsmethode und 
Schiilertyp eine Rolle (“Aptitude -Treatment-Interaction”, ATI; vgl. Cronbach & 
Snow, 1977). 

1.4.1.5 Person, Situation und aktuelle Befindlichkeit 

Da Gleichungen vom Typ der Formel [1.2] (s.S. 25) vorlaufig nicht zu realisieren sind 
und dies fur eine brauchbare Diagnostik auch nicht notig ist, betrachten wir Verhal- 
ten unscharf, aber heuristisch vertretbar, als eine Resultante aus Personmerkmalen (P) 
und situativen Umweltbedingungen (S); 

[1,3] v = f (P, S). 

Die langerfristigen Umwelteinwirkungen sind hier in den Ist-Zustand der Person- 
merkmale eingegangen. 

Analog zu der in [1.2] angegebenen Varianzzerlegung setzt sich die theoretische 
Varianz des Verhaltens aus Anteilen zusammen, die auf Unterschiede zwischen den 
Personen (P) und zwischen den Situationen (S) sowie auf die Kovarianz (Cov P, S) 
und die Wechselwirkung (P- S) dieser Komponenten zuruckgehen. 

Bei diesem gelegentlich auch “interaktionistisch” genannten Ansatz ist zu beach- 
ten, daB die Merkmalsklassen (P) und (S) - abgesehen von ihrer Kovarianz und Wech- 
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selwirkung - schon von vornherein nicht unabhangig voneinander variieren. Zwar 
konnen wir im allgemeinen Ereignisse und Sachverhalte, die auBerhalb einer Person 
vorkommen, eindeutig von Merkmalen unterscheiden, die unmittelbar oder mittelbar 
einer Person zuzuschreiben sind. Doch enthalt “Situation” nach unserer Definition 
von Umwelt Anteile von Personvarianz. Die Unterscheidung von Person und Umwelt 
ist theoretisch notwendig; fur das praktische Vorgehen bleibt sie fiktiv, weil Person 
und Umwelt psychologisch nur quasi-unabhangige Merkmalsklassen darstellen. 

So wie sich Umwelteinfliisse nach kiirzer- oder langerfristigen, situationsspezifi- 
schen oder situationsiibergreifenden unterscheiden lassen, unterscheiden wir relativ 
stabile “habituelle” Personenmerkmale (P stab ; Eigenschaften, Fahigkeiten, “Person- 
lichkeitsmerkmale” i.e.S.) von Merkmalen der aktuellen Befindlichkeit (P^,), die die 
stabileren Merkmale iiberlagern. Unter der Voraussetzung, daB die Wechselwirkungs- 
komponente mit den iibrigen Anteilen nicht korreliert, ist daher die theoretische Va- 
rianz des Ausdrucks P in Formel [1.3] definiert als 

[1.4] Var(P) = Var(P stab ) + Var(P akl ) + 2Cov(P stab , P akl ) + Var(P stab . P akl ). 

Fiir ein einzelnes Merkmal X gilt, daB es sowohl von konstruktverwandten Merk- 
malen (im Sinne von Abb. 1; s.S. 29) als auch von konstruktfremden iiberlagert sein 
kann, z.B. die kognitive Leistungsfahigkeit von der aktuellen Konfliktbelastung oder 
vom augenblicklichen Gesundheitszustand. Eine Kovarianz z.B. von Leistungsfahig- 
keit (stabile Komponente) und Konfliktbelastung (aktuelle Komponente) lage vor, 
wenn sich die Leistungsschwacheren haufiger in leistungsmindernden Konfliktsitua- 
tionen befanden als die Leistungsstarkeren. Von Wechselwirkung zwischen Leistungs- 
fahigkeit und Konfliktbelastung ware zu sprechen, wenn die tatsachlich gezeigte 
Leistung nur bei den habituell Leistungsschwachen oder deutlich starker bei ihnen als 
bei den habituell Leistungsstarken beeintrachtigt ware. 

Damit ist angedeutet, daB wir menschliches Verhalten als ein hochkomplexes Ge- 
flecht von Merkmalen zu verstehen haben, dessen systematische Untersuchung Auf- 
gabe der Personlichkeitsforschung und der Differentiellen Psychologie ist (Amelang 
& Bartussek, 1990). Weitere Aspekte, durch die sich Merkmale funktional voneinan- 
der abheben, sind der Tabelle 1 (s.S. 24/25) zu entnehmen. Darauf wird spater noch 
eingegangen. 



1.4.2 Prazisierung der MeBoperationen 



1.4.2.1 Standardisierung, Okonomisierung und MeBgenauigkeit 

Die grundlegenden diagnostischen Prinzipien bestehen darin, durch Standardisierung 
der Untersuchungsbedingungen erstens die Situationseinfliisse (S) moglichst konstant 
zu halten, so daB das registrierte Verhalten theoretisch allein als Funktion der Person- 
merkmale (P) verstanden werden kann. Fiir S = konstant gilt: 

[1.5] v = f(P). 

Zweitens wird durch eine representative Auswahl der Aufgaben, die den Pbn ge- 
stellt werden, der Reaktionsbereich inhaltlich so spezifiert, daB sich die registrierte 
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Verhaltensstichprobe einem bestimmten Merkmal(skomplex) Xj zuordnen laBt. Fur 
S = konstant und inhaltlich spezifiziert gilt: 

[1,6] V = f (Xj), 

wobei (Xj) Element der Menge (P) aller Merkmale ist, die wir an Personen unter- 
scheiden konnen. 

Das erste Standardisierungsprinzip entspricht der Forderung nach 0 bjekti vitat des 
Vorgehens. Die Verfahren sollen vor allem durch eindeutige, verbindliche Vorschrif- 
ten (“Instruktionen”) fur die Durchfuhrung und die Auswertung sowie fur die Inter- 
pretation der Ergebnisse gewahrleisten, daB der diagnostische Befund so wenig wie 
moglich von den auBeren Umstanden abhangt, unter denen die Untersuchung statt- 
gefunden hat. Deren Anted an der empirischen V arianz der MeBwerte soil gegen null 
gehen. Zu den auBeren Umstanden zahlen auch Untersucher und Auswerter (vgl. 
Abschnitt 2.2). 

Auf dem zweiten Standardisierungsprinzip beruht die Validitat (diagnostische Giil- 
tigkeit) der Methoden. Sie liegt empirisch zunachst in dem MaBe vor, wie es bei der 
Konstruktion eines Verfahrens gelingt, den theoretisch bestimmten Merkmalsbereich, 
auf den es sich richten soil, tatsachlich abzudecken. Dies gilt fur Klassen- oder Prii- 
fungsarbeiten grundsatzlich ebenso wie fur formelle Testverfahren. Unsere Erhe- 
bungsinstrumente sind jeweils operationale Definitionen der Merkmale, die uns 
diagnostisch interessieren. So kann z.B. die Intelligenz nach dieser oder jener Intel I i- 
genztheorie als der Grad der kognitiven Leistungsfahigkeit eines Individuums defi- 
niert werden; diagnostisch ist sie durch das definiert, was der Test miKt (Boring, 1923, 
zit. nach Conrad, 1983, S. 107; vgl. Abschnitte 1.4.3 und 2.2). Mit der Standardisie- 
mng dienen die beiden genannten Prinzipien zugleich der Okonomisierung; d.h. in der 
professionellen Diagnostik werden die Daten nicht gelegentlich oder zufallig, sondem 
unter moglichst ei nheitl i chert Bedingungen moglichst systematisch und treffsicher 
erhoben. Wie beim Experiment geht es um kiinstlich herbeigefuhrte, kontrollierte und 
grundsatzlich wiederholbare Verhaltensbeobachtung; anders als beim Experiment mit 
seinem Prinzip der Bedingungsvariation gilt hier der Grundsatz der Bedingungskon- 
stanz, 

Je ahnlicher (“homogener”) die Anforderungen der Aufgaben oder Fragen und je 
geringer der EinfluB der auBeren Umstande, desto genauer (“reliabler”) wird das be- 
treffende Personmerkmal gemessen. Die Varianz der MeBergebnisse soil moglichst 
vollstandig auf systematische Unterschiede in der Merkmalsauspragung bei den un- 
tersuchten Personen (“MeBwerttragem’') zuriickgehen. 

In dem MaBe, in dem die so entstandene Reihung der Personen bei einer spateren 
MeBwiederholung erhalten bleibt, kann man von einem “stabilen” Merkmal sprechen. 
Ein Merkmal ist theoretisch umso stabiler, je naher die Korrelation zwischen erster 
und zweiter Messung an die MeBgenauigkeit des Verfahrens herankommt und je lan- 
ger die Messungen auseinanderliegen. Empirisch bleibt die feststellbare Stabilitat 
eines Merkmals auf die MeBgenauigkeit des diagnostischen Verfahrens beschrankt. 
“Stabil” bezieht sich hier auf die psychologische oder padagogische Bedeutung des 
Merkmals, unabhangig davon, wie stark sich inzwischen die MeBwerte absolut ver- 
andert haben. Dies spielt z.B. eine Rolle, wenn es um die Messung von Lernfortschrit- 
ten geht und daraus auf unterschiedliche “Fahigkeiten” der Schuler geschlossen 
werden soil. Schliisse dieser Art werden in der Regel gezogen, wenn langerfristige 
Vorhersagen (“Prognosen”) gefordert sind, z.B. bei der Einschulungs- oder Eignungs- 
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diagnostik. Dabei geht man auf die Konstruktebene iiber, weil Vorherzusagendes 
Merkmal (“Kriterium’') und Ausgangsmerkmal (“Pradiktor”) phanotypisch verschie- 
den sein konnen, wie das z.B. bei der Verwendung von Intelligenztests fiir die Dia- 
gnose der “Sonderschulbediirftigkeit” oder die Prognose des Berufserfolgs der Fall 
ist. Die Stabilitat der Merkmale und der Randbedingungen ist Voraussetzung fiir Vor- 
hersagen. Die erreichbare Giite einer Vorhersage wird begrenzt durch das empirisch 
ermittelte MaB an Stabilitat der beteiligten Merkmale. 

1.4.2.2 VergleichsmaGstabe 

Diagnostische Aussagen kennzeichnen die individuelle Auspragung eines Merkmals 
an einer Person. Angenommen, die Schiilerin Gabi habe bei einer Reihe von Recht- 
schreibaufgaben 16 Punkte erhalten. Wie ist diese Leistung zu beurteilen? Die bloBe 
Mitteilung eines solchen Wertes laBt nicht erkennen, was er bedeutet. Dazu sind of- 
fenbar weitere Informationen notig, z.B. welches ist die hochste erreichbare oder die 
hochste erreichte Punktzahl? Wie ist die Skala definiert? Darf man annehmen, daB 
jemand mit 8 Punkten nur “halb so gut” in Rechtschreiben ist? (Oder “doppelt so gut”, 
falls namlich Fehler gezahlt wurden?) Von der Definition und der Qualitat der Skala 
abgesehen (s. Tabelle 1), brauchen wir BezugsgroBen, die es gestatten, den individu- 
ellen Wert auf dem angenommenen Merkmalskontinuum zu lokalisieren. Dies kann 
auf verschiedene Weise geschehen. Wir konnen den Wert z.B. auf die Verteilung aller 
Werte beziehen, die von Schiilern desselben Alters oder derselben Schulstufe erreicht 
werden, und angeben, ob er iiber oder unter einem ausgezeichneten Kennwert, etwa 
dem Median oder einer anderen Marke, liegt, und wie weit er davon entfemt ist. 
Unabhangig davon konnen wir uns u.U. mit der Feststellung begniigen, ob z.B. vor 
Beginn einer neuen Unterrichtseinheit die notigen Mindestanforderungen bei den 
Schiilern erfiillt sind, oder ob ein bestimmter Sollwert erreicht ist, der uns erlaubt 
anzunehmen, daB die Schiller die betreffende Fertigkeit inzwischen hinreichend si- 
cher beherrschen. 

Ganz gleich, ob ein erhobener Istwert fiir padagogisch befriedigend gehalten oder 
als veranderungsbediirftig betrachtet wird, in jedem Fall bedarf es dazu verlaBlicher 
OrientierungsgroBen (“Normen”). Anders ware die Bedeutung einer diagnostischen 
Information nicht einzuschatzen; sie bliebe wertlos. Dies gilt erst recht, wenn z.B. er- 
mittelt werden soli, wie “betrachtlich” die Ausfalle im Leistungsspektrum eines Schil- 
lers sind, und zu klaren ist, ob sie auf mangelhafte “Beschulung”, auf starke psychi- 
sche Belastung (z.B. durch Angste) oder auf Motivationsstorungen zuriickgehen, bzw. 
ob der Schiller als “lernbehindert” im Sinne von “sonderschulbediirftig” gelten muB. 
Ebenso benotigen wir Normen, wenn es um das Erkennen besonderer "Begabungen” 
oder um die Feststellung geht, die Leistungen eines Schillers seien “durchschnittlich” 
und sein Verhalten “unauffallig”: ganz allgemein, wenn Leistungen und Verhalten 
intra- oder interindividuell verglichen werden sollen, sei es zu einem bestimmten 
Zeitpunkt, sei es, daB uns Veranderungen von einem zum anderen Zeitpunkt interes- 
sieren. Als OrientierungsgroBen konnen gesetzte Sollvorgaben (“Gabi hat in Mathe- 
matik das Klassenziel nicht erreicht”), individuelle Bezugsnormen (“Gabi hat in 
Deutsch-Schriftlich erhebliche Fortschritte gemacht”) oder G ruppennormen dienen 
(“Im Englischen gehort Gabi zum besten Viertel ihres Jahrgangs”). Hiiufig ist es 
zweckmaBig, fiir Vergleiche zwischen Individuen und Merkmalen einheitliche Ska- 
len zu benutzen. 
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Normen und die Handhabung von Normen, zumal in der Padagogisch-psycholo- 
gischen Diagnostik, sind nichts von Natur aus Gegebenes. Sie hangen von kulturel- 
len und gesellschaftlichen Bedingungen ab und beruhen groBtenteils auf Vereinbarun- 
gen, z.B. dariiber, was, wann und wie in Schulen unterrichtet werden soli, oder welche 
Zulassungsbedingungen fur den Besuch von Sonderschulen oder Universitaten gel- 
ten. Dementsprechend unterliegen sie dem Wandel, und sie sind grundsatzlich revi- 
dierbar. Dies trifft selbst fur das zu, was man in einer Gesellschaft-ungeachtet inter- 
kultureller Gemeinsamkeiten - unter Intelligent versteht. Normen konnen mehr oder 
weniger engmaschig sein. Die bei uns ubliche Skala fur Schulnoten laBt fiinf oder 
sechs, mit den manchmal vergegebenen Zwischennoten zehn bis zwolf Abstufungen 
zu. Intelligenzquotienten (IQ) sind zwei- bzw. dreistellig definiert und erwecken den 
Eindruck, man konne in der Gesamtbevolkerung mindestens 90 Auspragungsgrade 
der kognitiven Leistungsfahigkeit unterscheiden (IQ zwischen 55 und 145). Wie eng 
das Raster von Normen sein darf, hangt in erster Linie von der Genauigkeit ab, mit 
der das abgebildete Merkmal gemessen wird, also von der Reliabilitat des diagnosti- 
schen Verfahrens, bzw. der Stabilitat des Merkmals. Sind diese gering, kann selbst 
eine einstellige Normenskala eine Differenzierung vortauschen, die wegen der man- 
gelnden Qualitat der MeBoperation nicht gerechtfertigt ist. 

In der Praxis kommt es vielfach nicht auf maximale Differenzierung, bzw. die 
maximal mogliche MeBgenauigkeit an. Haufig geniigen Unterscheidungen wie “ver- 
setzt’7“nicht versetzt”, “durchschnittlich’', bzw. “unter-” oder “iiberdurchschnittlich” 
oder die Feststellung, daB die groBe Mehrheit der Schuler das Unterrichtsziel erreicht 
hat, ohne daB fur jeden einzelnen nachgepriift werden miiBte, in welchem MaBe sich 
seine Leistungen z.B. von denen der Mitschiiler unterscheiden. Andrerseits wird - im 
Zusammenhang mit der Handhabung von Grundgesetzartikeln, die die Freiheit der 
Berufswahl garantieren-fiir die AbschluBzeugnisse von Gymnasien eine ausgefeilte 
Arithmetik vorgeschrieben. Sie soil die schulische Gesamtleistung jedes Schulers auf 
einem Raster von 31 zulassigen Skalenwerten lokalisieren und damit eine feine Ab- 
stufung der kritischen Mindestwerte fur die Zulassung zu bestimmten Studiengangen 
ermoglichen. Auch hier ist u.a. zu fragen, ob die MeBgenauigkeit der Diagnostik aus- 
reicht, um die “Befunde” so stark zu differenzieren. Ist die Feistungsfahigkeit von Be- 
werbern, die z.B. mit der Note 1,9 den kritischen Wert nicht erreichen, tatsachlich 
geringer als die der anderen, die mit 1,8 zugelassen werden? 

Allgemein gilt jedoch der Grundsatz, daB Normen padagogisch umso ergiebiger 
genutzt werden konnen, je starker sie zwischen den Auspragungsgraden eines Merk- 
mals zu differenzieren gestatten, vorausgesetzt, die diagnostischen Verfahren, auf 
denen sie beruhen, sind entsprechend meBgenau. Dies interessiert uns naturlich nicht 
bei beliebigen Merkmalen sondem nur bei solchen, von denen gezeigt werden kann, 
daB sie fur Erziehung und Unterricht bedeutungsvoll sind, und worin diese Bedeu- 
tung besteht. 



1.4.3 Verifizierung diagnostischer Aussagen 

Diagnostische Aussagen beschreiben die individuelle Auspragung von Merkmalen, 
auf denen sich Personen unterscheiden konnen. Wie alle wissenschaftlichen Aussa- 
gen iiber empirische Sachverhalte miissen die Aussagen der professionellen Diagno- 
stik uberpriifbar sein. Sie sollen nicht nur objektiv und hinreichend prazise sein, sie 




34 



1. Grundlegende Annahmen und Definitionen 



miissen sich auch bewahren, d.h. sie miissen nachweislich und moglichst vollstandig 
zutreffen. Erst damit wird die Diagnostik ihrer Funktion gerecht, zur Optimierung 
padagogischer Entscheidungen beizutragen. Die diagnostischen Verfahren sind also 
darauf zu untersuchen, wieweit sie diesem Anspruch geniigen. Auf die Verfahren be- 
zogen, sprechen wir - wie bereits erwahnt - von deren Validitat oder G iiitigkeit. Da- 
mit ist das AusmaB gemeint, in dem etwa ein Test fur den Zweck, zu dem er verwen- 
det werden soli, tatsachlich brauchbar ist; z.B. wie gut ein Schuleingangstest als 
Pradiktor das Kriterium Schulerfolg vorherzusagen gestattet, wenn die Kinder ihren 
Lernvoraussetzungen entsprechend gefordert werden. 

An die Validitat der Verfahren sind umso hohere Anspriiche zu stellen, je gewich- 
tiger die zu treffende Entscheidung ist. Wo es entsprechend gute Verfahren (noch) 
nicht gibt, muB die daraus resultierende Unsicherheit beriicksichtigt werden; d.h. die 
Randbedingungen und die wahrscheinlichen Konsequenzen altemativer Entscheidun- 
gen sind so sorgfaltig wie moglich abzuwagen. Bleibt die empirische Fehlerquote 
auch bei Nutzung aller verfiigbarer Pradiktoren hoch, sind u.U. die systembedingten 
Entscheidungszwange zu revidieren. Dies betrifft z.B. die vom traditionellen west- 
deutschen Schulsystem geforderten Ubergangsentscheidungen nach dem vierten 
Grundschuljahr (vgl. Tent, 1969). Der im vorigen Abschnitt angefuhrte Zugang zum 
Studium von Numerus-Clausus-Fachern ist ein anderes Beispiel fur die Frage nach der 
empirischen Legitimation staatlicher Regelungsbefugnisse. Hierbei geht es haupt- 
sachlich um einen Aspekt der Validitat von Lehrerurteilen. Den Inhabem von Reife- 
zeugnissen wird die unbefristete Eignung und Berechtigung bescheinigt, beliebige 
Facher an wissenschaftlichen Hochschulen studieren zu konnen. Wieweit ist die 
scheinbar plausible Annahme gerechtfertigt, daB sich Abiturienten fur bestimmte, 
zulassungsbeschrankte Studiengange umso eher eignen, jebesserdie Durchschnitts- 
note ihres Zeugnisses ist? Und haben Absolventen mit besseren Priifungsergebnissen 
auch mehr Erfolg im Beruf? 

In diesen Beispielen ergibt sich die Validitat der diagnostischen Verfahren aus dem 
Verwertungszusammenhang. Wir sprechen dann von Kriteriumsvaliditat und von pro- 
gnostischer Validitat. Unter den Rahmenbedingungen unseres Schulsystems spielt 
dieser Validitatsaspekt eine unverhaltnismaBig groBe, wenn auch inzwischen abneh- 
mende Rolle. 

Die Verfahren konnen aber unabhangig von ihrer aktuellen Verwertung auf ihre 
padagogische oder psychologische Bedeutung uberpriift werden. Welches Merkmal, 
oder welche Merkmalskombination, wird erfaBt? Geben z.B. die Deutschnoten tat- 
sachlich nur die Leistung der Schuler im Deutschunterricht wieder oder gehen viel- 
leicht das “Betragen” oder die Sympathie/Antipathie auf seiten des Lehrers mit ein? 
Welche Komponenten der kognitiven Leistungsfahigkeit sind in einem Intelligenz- 
test beriicksichtigt, und wie groB sind eventuell die Anteile von Motivation und Kon- 
zentration? Wieweit beeinfluBt die Neigung, sozial erwiinscht zu reagieren, die Er- 
gebnisse eines Angstinventars oder Personlichkeitsfragebogens? Dabei interessiert in 
erster Linie, wieweit die empirischen Daten mit theoretisch vorgegebenen Merkmals- 
konzepten (wie “Intelligenz” oder “Labilitat”) in Einklang stehen. Man spricht in 
diesen Fallen (unscharf) von Konstruktvaliditat. Was ein konstruktvalider Test miBt, 
kann je nach diagnostischer Fragestellung und VergleichsgroBe (Kriterium) verschie- 
den belangvoll sein. Ein Intelligenztest, der z.B. hoch mit der objektiven Schullei- 
stung in Mathematik korreliert, kann u.U. Zeugnisnoten nur maBig genau und die Er- 
gebnisse miindlicher Priifungen noch weniger genau vorhersagen. Obwohl alle drei 
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Variablen mit Intelligenz zu tun haben, ist das AusmaB unterschiedlich; dieses hangt 
u.a. von der instrumentellen Qualitat des Kriteriums ab. Es ist also nicht sinnvoll, von 
der Validitat eines Verfahrens zu sprechen; vielmehr gibt es je nach Verwendungs- 
zweck eine Mehrzahl unterscheidungsbediirftiger Validitatsaspekte. 

In der Padagogisch-psychologischen Diagnostik spielt dariiber hinaus die Lehr- 
plangultigkeit oder curriculare Validitat eine besondere Rolle. Hier geht es um den 
(meist iiber Expertenurteile erbrachten) Nachweis, daB die Aufgaben in Schulleistungs- 
tests fiir die Lehrplananforderungen eines zeitlichen Ausschnitts aus einem Unter- 
richtsfach reprasentativ sind. So muB z.B. ein curricular valider Rechentest fiir das 
vierte Schuljahr genau die Typen von Aufgaben enthalten, die vom Lehrplan fiir den 
Mathematikunterricht auf dieser Schulstufe vorgesehen sind, also schriftliches Mul- 
tiplizieren und Dividieren, Kopfrechnen und Textaufgaben (“Rechnerisches Denken” 
in Sachzusammenhangen). Aber auch jede Klassenarbeit muB selbstverstandlich, 
meist fiir einen kleineren Ausschnitt, “lehrplangiiltig” sein. Zu beachten ist, daB die 
Leistungen der Schiiler immer auch von der Giite des erteilten Unterrichts mitbe- 
stimmt werden. Die Riickmeldungsfunktion solcher diagnostischer Erhebungen gilt 
gleichermaBen der Schule wie den Schiilern. 

Ganz gleich wie die Validitat eines diagnostischen Verfahrens bestimmt wird, es 
geht jeweils um die Aufklarung der Varianz uns interessierender Personmerkmale, und 
zwar unabhangig davon, ob wir es mit relativ stabilen oder weniger stabilen Merk- 
malen zu tun haben. Die Validitat ist das wichtigste Giitekriterium aller Diagnostik. 
Unsere Aussagen sollen so valide sein wie moglich, d.h. die Unterschiede, die wir 
feststellen, sollen so genau wie moglich zutreffen. Doch konnen auch weniger valide 
Verfahren niitzlich sein. Ihre Anwendung ist gerechtfertigt, solange keine nachweis- 
lich besseren zur Verfiigung stehen. Wie schon angefiihrt, miissen wir stets bedenken, 
wie valide ein Verfahren fiir den Zweck ist, zu dem wir es benutzen. 



1.5 Zusammenfassung und Definition von Diagnostik 

Verhalten, Leistungen, Eigenschaften und Fahigkeiten von Personen zu beurteilen, ist 
uns aus dem alltaglichen zwischenmenschlichen Umgang von frith an vertraut. Un- 
sere Urteile zielen darauf ab, den anderen moglichst gut zu verstehen und einzuschat- 
zen, was wir von ihm zu erwarten haben. Dies ist Teil unserer Bemiihungen, mit Hil- 
fe bestandsfester Erkenntnisse die Lebenswelt, in der wir agieren, iiberschaubar zu 
machen und kiinftige Ereignisse weniger ungewiB erscheinen zu lassen. Aufgabe der 
Padagogisch-psychologischen Diagnostik ist es, dies fiir den Lebensbereich zu leisten, 
den wir Erziehung nennen. Erziehen heiBt, Merkmale von Personen iiber mentale Be- 
einflussung moglichst dauerhaft zu verandem. Differenzierung und Individualisierung 
sind anerkannte Grundsatze padagogischen Vorgehens. 

Die professionelle Diagnostik dient der Verwirklichung dieser Grundsatze. Sie 
folgt damit dem allgemeinen Optimierungsgebot, das auch fiir padagogisches Han- 
deln gilt. Dabei kniipft sie an die Alltagsdiagnostik an. Ihr wissenschaftliches Funda- 
ment erhalt sie durch die Klarung ihrer personlichkeits- und meBtheoretischen Annah- 
men, durch die Prazisierung der Merkmale, auf die sie sich richtet, durch die genaue 
Analyse der Randbedingungen, unter denen sie ablauft, durch die Standardisierung 
und Prazisierung der MeBoperationen (der diagnostischen Erhebungsmethoden), 
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durch die Bereitstellung von MaBstaben zur Beurteilung der individuellen MeBergeb- 
nisse sowie durch die empirische Verifizierung ihrer diagnostischen Aussagen. 

Als Praxis ist Diagnostik in der Regel “problemlosendes Handeln” im Sinne der 
Anwendung einer grundsatzlich “nutzenmaximierenden Technologie auf wissen- 
schafdicher Grundlage” (Wottawa & Hossiep, 1987). Im Umfeld der Erziehung geht 
es primar um einen jeweils padagogisch definierten Nutzen, worin dieser auch im- 
mer bestehen mag. Je nach Fragestellung sind demzufolge Methoden zu verwenden, 
die den Anspriichen einer wissenschaftlich fundierten Diagnostik gentigen und deren 
Giite der Tragweite der padagogischen SchluBfolgerungen entspricht, die man darauf 
stiitzen will. 

Damit ist der Sache nach deutlich, was unter Padagogisch-psychologischer Dia- 
gnostik zu verstehen ist, wozu sie dient, wie sie vorgeht, und was wir von ihr erwar- 
ten. In der Literatur finden sich zahlreiche, unterschiedlich genaue und umfassende 
Begriffsbestimmungen (z.B. Klauer, 1978; Michel & Conrad, 1982; Ingenkamp, 
1985; Jager & Petermann, 1992). Es erscheint uns zweckmaBig, Diagnostik, in An- 
lehnung an Tent & Waldow (1984, S. 5) zusammenfassend wie folgt zu definieren: 



Definition fiir Diagnostik 

"Diagnostik ist ein theoretisch begrundetes System von Regel n und Methoden zur 
Gewinnung und Analyse von Kennwerten fiir inter- und intraindividuelle Merk- 
malsunterschiede an Personen." 

Dazu gehoren 

(a) die Formulierung diagnostischer Probleme und Fragestellungen 

(b) die Erhebung diagnostischer Daten und deren Integration ZU Diagnosen 
sowie 

(c) die damit verkniipften Folgeerwartungen (Prognosen) im Hinblick auf ver- 
fiigbare oder wiinschbare Behandlungsaltemativen. 

Bei den Erhebungsmethoden unterscheidet man die infomielle, instrumentell meist 
schwachere Urteilsbildung durch Experten (z.B. Lehrer, Psychologen, Arzte) auf- 
grund Verhaltensbeobachtung, Leistungseinschatzung und Gesprachsfiihrung von 
der formalisierten Urteilsbildung mit Hilfe standardisierter Untersuchungsverfahren 
(Inventarien und Tests). 



Mit dieser Definition sind die in Praxis und Forschung moglichen Falle der An- 
wendung diagnostischer Prozeduren und der Verwertung diagnostischer Informatio- 
nen erschopfend abgedeckt. Wie alle empirisch-psychologischen Untersuchungen 
werden diagnostische Erhebungen stets an Individuen vorgenommen; diagnostische 
Aussagen beziehen sich daher primar auf Einzelpersonen, denen damit bestimmte At- 
tribute zugeschrieben werden. Aus den individuellen Ergebnissen lassen sich je nach 
der Skalenqualitat Kennwerte fiir Gruppen errechnen, so daB man - vor allem zu For- 
schungszwecken - z.B. Schulklassen, Schultypen und Schulstufen, Schiilerkohorten 
oder Statusgruppen hinsichtlich bestimmter Merkmale insgesamt kennzeichnen und 
miteinander vergleichen kann. 




1.5 Zusammenfassung und Definition von Diagnostik 
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Von D iagnose sprechen wir in diesem Zusammenhang, wenn Personen anhand re- 
levanter und valider Einzelinformationen innerhalb eines padagogisch bedeutsamen 
Klassifikationssystems einer bestimmten Klasse von Merkmalstragem zugeordnet 
werden. So kann z.B. die Kombination des Rohwerts auf einem kognitiven Leistungs- 
test mit dem Lebensalter bei einem jiingeren Kind bedeuten, daB es “uberdurchschnitt- 
lich’', derselbe Rohwert bei einem alteren, daB es “unterdurchschnittlich intelligent” 
ist. Ahnlich fassen wir verschiedene Informationen iiber die Sinnestiichtigkeit, die 
Schulleistung, die Intelligenz und die Vorgeschichte eines Schulers zu Diagnosen wie 
“lese-rechtschreibschwach” oder ‘‘lernbehindert” zusammen. 

Unter Prognose versteht man die Erwartung (“Vorhersage”) kiinftigen Verhaltens 
oder kiinftiger Leistungen aufgrund diagnostischer Erkenntnisse. Bezieht sich die Er- 
wartung auf dasselbe Merkmal wie das zuvor diagnostisch erfaBte, ist die Treffsicher- 
heit der Vorhersage eine Funktion der Stabilitat des Merkmals; bezieht sich die Er- 
wartung auf ein anderes Merkmal (“Kriterium”), hangt die Treffsicherheit neben der 
Stabilitat des Pradiktors und des Kriteriums von der Enge des empirischen Zusam- 
menhangs zwischen beiden ab. Im padagogischen Alltag spielen Erwartungen dieser 
Art eine groBe Rolle; formalisierte Vorhersagen werden allerdings nur selten genutzt. 

Als diagnostischen Test bezeichnen wir jedes systematisch konstruierte, routine- 
maBig anwendbare, standardisierte und normierte Verfahren zur Erhebung individu- 
eller Reaktionsstichproben, sofem dessen MeBgute bekannt ist und fur den Ver- 
wendungszweck ausreicht.- Diese strenge Bestimmung soli im Sinne unserer Dia- 
gnostik-Definition die Unterscheidung “weicher” von methodisch anspruchsvollen 
Verfahren gewahrleisten und dem VerschleiB des Test-Begriffs entgegenwirken. Auch 
wenn sie methodisch hohen Anspruchen geniigen, sind diagnostische Ergebnisse stets 
deskriptive Aussagen uber Ist-Zustande. Ftir sich genommen, besagen sie in der Re- 
gel noch nichts uber die zugrundeliegenden “Ursachen”. Dazu bedarf es zusatzlicher 
Analysen. Ebenso wenig ist diagnostischen Aussagen zu entnehmen, weshalb und wie 
der festgestellte Ist-Zustand geandert werden soil. Fur unseren Anwendungsbereich 
wird dies von den padagogischen Zielvorgaben und den Moglichkeiten zu ihrer Rea- 
lisierung bestimmt (“Primat der Didaktik”, Tent & Waldow, 1984; Schlee, 1985). Da 
Erziehung Veranderungen an Personmerkmalen bewirken soil, kommt der Verande- 
rungsmessung (“Verlaufsdiagnostik”) in der Padagogisch-psychologischen wie in der 
klinischen Diagnostik eine besondere Bedeutung zu (s. Abschnitt 9). 



Grundlegende Literatur: 

Erziehungswissenschaftliche Grundlagen: 

Brezinka, W. (1978). Metatheorie der Erziehung (4. Aufl.). Miinchen: Reinhardt. 
Sauer, K. (1981). Einfiihrung in die Theorie der Schule. Darmstadt: Wiss. Buchge- 
sellschaft. 

Wilhelm, Th. (1977). Pddagogik der Gegenwart (5. Aufl.). Stuttgart; Kroner. 

Zur Differentiellen Psychoiogie und Personlichkeitsforschung: 

Amelang, M. & Bartussek, D. (1990). Differentielle Psychoiogie und Personlichkeits- 
forschung (3. Aufl.). Stuttgart; Kohlhammer. 
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Weiterfuhrende Literatur zur Padagogisch-psychologischen Diagnostik: 
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heim: Deutscher Studien Verlag. 
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2. Grundzuge der klassischen Testtheorie 



1. Von welchen Definitionen und Annahmen geht die klassische Testtheorie aus? 

2. Welche Kriterien stellt die klassische Testtheorie zur Verfiigung, um die Qualitat 
eines Tests zu beurteilen? 

3. Warum hangen die Giitekriterien nicht nur vom Test, sondern auch von der 
Personenstichprobe ab, an der sie erhoben wurden? Weshalb wird haufig eine 
Normalverteilung der Testwerte angestrebt? 

4. Was sind Testnormen und wozu werden sie verwendet? 



Vorstrukturierende Lesehilfe 

Die klassische Testtheorie, ihre Grundbegriffe und ihre Giitekriterien fur psychologi- 
sche Tests gehoren zum selbstverstandlichen Methodenrepertoire psychologischer 
Diagnostik. Sie hat mit ihren Forderungen nach Objektivitat, Reliabilitat und Validi- 
ty die Testentwicklung nachhaltig beeinfluBt, und es ist heute kaum mehr vorstell- 
bar, einen Test zu publizieren, ohne zu diesen grundlegenden Giitekriterien Angaben 
zu machen. Im folgenden sollen die Grundgedanken der klassischen Testtheorie kurz 
zusammengefaBt werden. Diese Zusammenfassung kann kein Ersatz fiir eine syste- 
matische Einfiihrung sein, wie sie in klassischen Lehrbiichern, z.B. Lord & Novick 
(1968) oder Fischer (1974) gegeben wird. Auf Formeln wird hier weitgehend, auf 
Ableitungen ganz verzichtet. 

Im folgenden wird zunachst das Konzept des wahren Werts und des MeBfehlers im 
Sinn der klassischen Testtheorie eingefiihrt (2.1). Darauf aufbauend werden die Gii- 
tekriterien Reliabilitat, Validitat und Objektivitat begrifflich erlautert (2.2). Es wird 
darauf hingewiesen, daB die fiir die Giitekriterien errechneten Kennwerte nur in Hin- 
blick auf die Personenpopulation, an der sie bestimmt wurden, zu interpretieren sind 
(2.3) und die Rolle der Normalverteilung diskutiert (2.4). Der letzte Abschnitt (2.5) 
behandelt die Bedeutung der Testnormen als Interpretationshilfe, vor allem in der 
individuell beratenden Diagnostik. Auf eine Gesamtzusammenfassung von Kapitel 2 
wird verzichtet, da der Text selbst nicht mehr als eine knapp gehaltene Zusammen- 
fassung einiger Grundbegriffe enthalt. 



2.1 Grundbegriffe der Klassischen Testtheorie: Beobachteter 
Wert, wahrer Wert, Mefifehler 

Wenn von psychologischer ■‘Testtheorie’' die Rede ist, so legt das zunachst die Ver- 
mutung nahe, es handle sich um eine Theorie, die nur auf psychologische und pada- 
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gogische Tests anzuwenden sei. Das trifft jedoch nicht zu. In der klassischen Testtheo- 
rie geht es um die allgemeine Frage, wie GutemaBstabe fur psychologische und pa- 
dagogische Messungen zu definieren sind und wie diese Giitekriterien praktisch zu 
bestimmen sind. Fragen dieser Art sind z.B.: “Wie genau ist die Messung?” “Wie stark 
wird sie durch zufallige Fehler beeinfluBt?” “Wird dasjenige Merkmal gemessen, das 
gemessen werden soli, oder wird die Messung stark von anderen Merkmalen mitbe- 
einfluBt?” - Solche Fragen stellen sich bei jeder Messung (mittels Tests, Lehrerein- 
schatzungen, Noten, Selbst- und Fremdbeurteilungen usw.), so daB die klassische 
Testtheorie als ein allgemeiner begrifflicher Rahmen anzusehen ist, der es ermoglicht, 
die Qualitat von Messungen zu beurteilen und die Auswirkungen von MeBfehlern 
abzuschatzen. Wenn im folgenden auch meistens von “Tests” die Rede sein wird, so 
sind Begriffe und Aussagen leicht auf andere Arten von Messungen zu ubertragen. 

In der klassischen Testtheorie geht man davon aus, daB die Ergebnisse psycho- 
logischer Messungen nicht vollstandig stabil sind, sondern Zufallsschwankungen un- 
terliegen. Selbst wenn man sich vorstellt, man konnte dieselbe Person v mit demsel- 
ben Test i unter denselben Bedingungen immer wieder testen, so setzt man nicht 
voraus, daB sie jedesmal den genau gleichen Testwert erzielt, sondern man nimmt an, 
daB der beobachtete Testwert X vi mehr oder weniger stark schwankt. Der wcihre Wert 
der Person v im Test i wird dann als derjenige Wert definiert, den die Person bei ge- 
dachter unendlicher Testwiederholung im Durchschnitt erreichen wurde. Er wird mit 
X (griechisch: tau) bezeichnet und ist der Erwartungswert zum beobachteten Testwert 



[2.11 Tvi= E(Xvi) 

Mit der Definition des wahren Werts als Erwartungswert bei gedachter unendlicher 
MeBwiederholung unter denselben Bedingungen, wurde dieser Begriff von viel un- 
notigem inhaltlichen Ballast befreit, der zunachst damit verbunden zu sein scheint. 
Der Ausdruck “wahrer Wert” legt vom Wortlaut her die Annahme nahe, es handle sich 
um einen idealen Wert, der der Person unabhangig vom MeBinstrument “in Wahrheit” 
zukommt, und der die Person zeitlich unveranderlich kennzeichnet. Wenngleich sol- 
che Vorstellungen in der alteren Literatur eine Rolle gespielt haben (Naheres dazu 
findet man bei Lord & Novick, 1968, Kapitel 2.9), so sind sie in der in [2.1] gegebe- 
nen Definition nicht mehr enthalten. Der wahre Wert ist fur den speziellen Test spe- 
zifisch: Werden z.B. durch Hinzufiigen von Wahlaltemativen die Ratemoglichkeiten 
reduziert, so andert sich dadurch (auBer bei Personen, die nie raten) die zu erwarten- 
de Trefferzahl, also der wahre Wert im Sinn der Definition [2.1]. Wenn die Person 
nicht unter denselben, sondern unter anderen Bedingungen (nach Lem- oder Rei- 
fungsprozessen, bei geanderter Motivationslage usw.) getestet wird, kann sie einen 
anderen wahren Wert haben. 

Da nun aber praktisch eine Testwiederholung unter genau gleichen Bedingungen 
nicht moglich ist, schon gar nicht unendlich oft, bleibt der wahre Wert eine theoreti- 
sche GroBe, die zwar geschatzt (zur Berechnung des Konfidenzintervalls zur Schat- 
zung des wahren Werts siehe Formel [2.9] in diesem Kapitel), aber nie genau ange- 
geben werden kann. Als Mefifehler wird die Differenz zwischen dem beobachteten 
Testwert der Person und dem theoretisch definierten wahren Wert bezeichnet: 

[2.2] F«i = X„ - Xvi 




2.2 Die Giitekriterien der klassischen Testtheorie: Objektivitat, Reliabilitat, Validitat 
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Aus dieser Definition ergibt sich, daB fur jeden Probanden der Erwartungswert des 
MeBfehlers Null ist: 

[2.3] E(Fvi) = E(Xvi- ivi) = E(Xvi) - x vi = x«i- x* = 0 

In einer Population von Probanden, z.B. einem Altersjahrgang, werden sich die 
Personen in ihren wahren Werten T unterscheiden. Daraus, daB aus dem wahren Wert 
einer Person der MeBfehler nicht vorhersagbar ist (fur jede Person - gleichgultig 
welchen wahren Wert sie hat - ist der Erwartungswert der MeBfehler Null) ergibt sich 
als weitere Folgerung, daB in jeder beliebigen Population die MeBfehler mit den wah- 
ren Werten des Tests unkorreliert sind. Dariiber hinaus wird angenommen, daB die 
MeBfehler eines Tests i auch nicht mit den wahren Werten oder den MeBfehlern eines 
anderen Tests j korrelieren. Sie sind vielmehr als unsystematische Zufallsschwankun- 
gen aufzufassen. Diese grundlegenden Annahmen der klassischen Testtheorie sind in 
vier Axiomen zusammengefaBt: 

Axiom I: Der Erwartungswert des MeBfehlers ist Null. 

E(F,) = 0. 

Axiom II: Die MeBfehler korrelieren nicht mit den wahren Werten in demselben 

Test. 

P(F;,T,) = 0. 

(p = griechisch: rho) 

Axiom III: Die MeBfehler im Test i korrelieren nicht mit den MeBfehlern in einem 
anderen Test j. 
p(Fi, Fj) = 0. 

Axiom IV: Die MeBfehler im Test i korrelieren nicht mit den wahren Werten aus ei- 
nem anderen Test j. 
p(Fi,Tj) = 0. 

Die Axiome sind Ausgangspunkt fur alle weiteren mathematischen Ableitungen. 
Wenn man Formeln aus der klassischen Testtheorie benutzt, hat man daher zu iiber- 
legen, ob die in den Axiomen ausgesprochenen Grundannahmen im vorliegenden 
Anwendungsfall zutreffen. Die Annahmen iiber die Unabhangigkeit der MeBfehler 
mogen zwar in der Regel plausibel sein, doch konnen in Spezialfallen durch mathe- 
matische Abhangigkeiten zwischen den Skalen auch die MeBfehler abhangig werden 
(z.B. durch Verrechnen derselben Items auf mehreren Skalen; weitere Beispiele fin- 
det man bei Stelzl, 1982, Kapitel 5.2). 



2.2 Die Giitekriterien der klassischen Testtheorie: Objektivitat, 
Reliabilitat, Validitat 

Aufbauend auf den Begriffen “beobachteter Wert”, “wahrer Wert” und “MeBfehler” 
lassen sich Reliabilitat und Validitat, die beiden zentralen Giitekriterien der klassi- 
schen Testtheorie, deftnieren. Inhaltliche Voraussetzung fur Reliabilitat und Validitat 
ist die Objektivitat. Sie soil deshalb vorab behandelt werden. 
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2.2.1 Objektivitat 

Ein Testergebnis ist objektiv, wenn es nicht vom Testleiter (seiner Person, seinem 
Verhalten bei der Durchfiihrung oder seinem Ermessen bei der Auswertung) abhangt. 
Der Test soli ja Aussagen iiber den Probanden machen, und nicht irber den Psycholo- 
gen, der ihn anwendet. Lienert (1961) unterscheidet Durchfiihrungs-, Auswertungs- 
und Interpretationsobjektivitat: 

Durchfuhrungsobjektivitat bedeutet, daB das Testergebnis nicht davon abhangt, wer 
als Untersucher den Test mit dem Probanden durchfuhrt. Um das zu erreichen, wer- 
den die Instruktionen zumindest sinngemaB, meist sogar wortlich festgelegt, werden 
Abbruchzeiten bei nicht erfolgten Antworten festgesetzt, werden zulassige Hilfen und 
Kommentare moglichst im Wortlaut fixiert, usw. Durchfuhrungsobjektivitat ist ver- 
standlicherweise leichter zu erreichen, wenn der Proband nach der Instruktion relativ 
selbstandig weiterzuarbeiten hat, als wenn die Durchfiihrung in standiger Interaktion 
mit dem Versuchsleiter erfolgt, wie das z.B. bei Tests mit jiingeren Kindem erforder- 
lich ist. 

Die Kontrolle der Durchfuhrungsobjektivitat ist vom Aufwand der Datenerhebung 
her gesehen relativ schwierig: Der theoretisch gesehen einfachste Weg, namlich den- 
selben Test an denselben Probanden mehrmals mit wechselnden Versuchsleitem 
durchzufiihren, fiihrt nicht nur zu einer erheblichen zeitlichen Belastung des Proban- 
den, sondem kommt meist auch wegen massiver Erinnerungs- und Wiederholungsein- 
fliisse kaum in Betracht. Ein anderer Weg besteht darin, die Probanden den Untersu- 
chern zufallig zuzuordnen und nach Mittelwertsunterschieden zwischen den 
Untersuchern zu fragen. Wenn der Test hohe Durchfuhrungsobjektivitat hat, sollten 
keine Mittelwertsunterschiede auftreten. Allerdings diirfte auch eine Zufallszuord- 
nung von Probanden zu Untersuchern meist erhebliche organisatorische Probleme mit 
sich bringen. Wegen solcher praktischer und versuchstechnischer Schwierigkeiten 
wird Durchfuhrungsobjektivitat auch weit seltener untersucht als Auswertungsobjek- 
tivitat. 

Auswertungsobjektivitat ist gegeben, wenn bei vorliegendem Testprotokoll (Ant- 
worten des Probanden) das Testergebnis (IQ, Punktwert o.a.) nicht von der Person des 
Testauswerters abhangt. Bei Tests mit Mehrfachwahl-Aufgaben ist Auswertungsob- 
jektivitat im allgemeinen problemlos zu erreichen. Wenn dagegen der Proband die 
Antwort selbst zu formulieren hat und der Spielraum moglicher Antworten groB ist, 
miissen detaillierte Auswertungsregeln erarbeitet werden, und die Auswertungsobjek- 
tivitat muB empirisch uberpriift werden. Aber auch dann, wenn der Proband relativ 
komplexe Probleme zu bearbeiten hat, und entsprechend unterschiedliche Teillosun- 
gen moglich sind, kann hohe Auswertungsobjektivitat erreicht werden. Versuchspla- 
ne zur Bestimmung der Auswertungsobjektivitat findet man bei NuBbaum (1987). 

Interpretationsobjektivitat liegt vor, wenn verschiedene Psychologen aufgrund 
desselben Testwertes zu denselben SchluBfolgerungen kommen. Hier kann der Test- 
autor zwar Hilfestellungen geben, indem er z.B. moglichst umfangreiche Angaben zur 
Validitat macht und durch ausfuhrliche Testnormen den Vergleich des Probanden mit 
einschlagigen Bezugsgruppen ermoglicht - bei der Vielzahl moglicher Fragestellun- 
gen und moglicher Rahmenbedingungen wird eine vollstandige Interpretationsobjek- 
tivitat aber kaum zu erreichen sein. 




2.2 Die Gutekriterien der klassischen Testtheorie: Objektivitat, Reliabilitat, Validitat 
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2.2.2 Reliabilitat 



Die Reliabilitat ist eines der zentralen Gutekriterien der klassischen Testtheorie. Es 
geht dabei um die MeBgenauigkeit im Sinne der Reproduzierbarkeit des Testergeb- 
nisses bei konstanten Bedingungen. Die Frage, was gemessen wird, ob z.B. ein Intel- 
ligenztest wirklich Intelligenz miBt oder nur Schulwissen, bleibt dabei noch ausge- 
klammert. Wenn ein Test hohe MeBgenauigkeit haben soil, dtirfen Zufallseinfliisse 
(MeBfehler im Sinn der Axiome) nur eine geringe Rolle spielen. Aus den Axiomen 
laBt sich ableiten, daB sich die beobachtete Testvarianz aus der Varianz der wahren 
Werte und der Varianz der MeBfehler zusammensetzt: 



[2.41 



& (X) = a 2 (T) + o 2 (F) 



Die Reliabilitat ist definiert als: 
[2.5] 



Rel = 



o 2 (T) 

a 2 (X) 



Sie gibt an, welcher Teil der beobachtbaren Testvarianz auf die Varianz der wah- 
ren Werte zuriickzufiihren ist. 

Wenn man an einer Personenpopulation den Test zweimal unter denselben Bedin- 
gungen durchfiihrt, so daB fur jede Person zwei parallele Messungen X und X’ vor- 
liegen, so ist die Reliabilitat gleich der Korrelation der beiden parallelen Messungen: 



[2.6] Rel = p(X,X') 

In der Anwendung steht man allerdings vor dem Problem, daB eine MeBwiederho- 
lung unter genau denselben Bedingungen nicht durchfiihrbar ist, da als Folge der er- 
sten Testdurchfiihrung Erinnerungs-, Ubungs-, Ermiidungseinfliisse usw. auftreten. 
Als eine naherungsweise Realisierung kommt eine Wiederholung desselben Tests 
nach einem langeren oder kiirzeren Zeitintervall (Testwiederholungsreliabilitat) in 
Betracht, oder auch die Vorgabe von zwei verschiedenen, nach bestem Wissen als 
parallel konzipierten und auf Parallelitat gepriiften Testformen (Paralleltestreliabili- 
tat). Wenn nur eine Testvorgabe vorliegt, kann man auch durch geeignete Untertei- 
lung dieses einen Tests AufschluB iiber die Reliabilitat erhalten (Berechnung der Test- 
halbierungsreliabilitdt bei Teilung des Tests in zwei Teile, der inneren Konsistenz bei 
Teilung in mehr als zwei Teile). 

Verschiedene Arten der Reliabilitatsbestimmung stimmen in ihren Ergebnissen 
meist nicht genau iiberein. Man kann das als eine Unzulanglichkeit der Anwendung 
beklagen, die eine Wiederholung unter gleichen Bedingungen eben nur annaherungs- 
weise ermoglicht. Man kann aber auch aus dem Vergleich der auf verschiedene Arten 
erhobenen Reliabilitatskoeffizienten wichtige Informationen iiber den Test gewinnen: 
Die Korrelation der Testergebnisse bei Testwiederholung nach unterschiedlich langem 
Zeitabstand ist in jedem Fall von Interesse, ebenso die Korrelation zwischen als 
gleichwertig angebotenen Parallelformen eines Tests. Testwiederholungsreliabilitaten 
mit unterschiedlich langen Zeitintervallen zwischen erster und zweiter Testdurchfiih- 
rung sagen auch etwas iiber die Stabilitat des gemessenen Merkmals aus. Wenn das 
Zeitintervall kurz ist, muB man bei der vergleichenden Interpretation der Koeffizien- 
ten auch an Erinnerungs- und Ubungseinfliisse denken. Dabei ist zu beriicksichtigen, 
daB EinfluBgroBen, die sich bei alien Probanden gleich auswirken (z.B. zu einem fiir 
alle Personen gleichen Zuwachs von 5 Punkten fiihren), nur zu einer Mittelwertsver- 
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schiebung fiihren, sich aber auf die Korrelation nicht auswirken. Nur EinfluBgro- 
Ben mit individuell unterschiedlicher Wirkung (z.B. ein individuell unterschiedli- 
cher Lemzuwachs, ein individuell unterschiedlicher Vorteil durch Erinnerung an 
bereits gefundene Losungen) beeinflussen die Korrelation. 

Die Storquellen bei der Bestimmung der Paralleltestreliabilitat sind im wesent- 
lichen die gleichen. Da nicht genau derselbe Test ein zweites Mai vorgegeben wird, 
werden Ubungs- und Erinnerungseinfliisse sich nicht ganz so stark auswirken, dafiir 
kommt mangelnde Parallelitat der als parallel konzipierten Tests als mogliche Stor- 
quelle hinzu. 

Die Testhalbierung wird gerne aus Griinden der Okonomie angewendet, weil nur 
eine Testvorgabe erforderlich ist. Die Items werden auf zwei moglichst parallele Test- 
halften verteilt, jede Testhalfte fur sich ausgewertet und die Korrelation der Testwer- 
te aus den beiden Halften bestimmt. Damit hat man eine Schatzung der Reliabilitat 
des Tests bei halber Lange. Daraus wird mit Hilfe der Spearman-Brown-Formel (sie- 
he Fischer, 1974, S.50) die Reliabilitat fur den ganzen Test errechnet. Zu beachten ist, 
daB situative Effekte (Tagesverfassung des Probanden, auBere Umstande der Test- 
durchfuhrung) beide Testhalften in gleicher Weise betreffen und damit zur Korrela- 
tion beitragen konnen. Diese Effekte gehen hier in die Varianz der wahren Werte, nicht 
in die Varianz der MeBfehler ein. Testhalbierungskoeffizienten fallen deshalb meist 
hoher aus als Testwiederholungs- oder Paralleltestkoeffizienten mit einem Zeitinter- 
vall zwischen den beiden Testdurchfiihrungen. 

Eine beliebte Art der Testhalbierung ist die Odd-Even-Methode. Dabei werden die 
Items durchnummeriert und dann die Items mit ungeradzahliger Nummer (englisch: 
odds) in die eine Testhalfte, die mit geradzahliger (englisch: even) Nummer in die 
andere Testhalfte gerechnet. Dabei betreffen dann auch individuelle Schwankungen 
im Leistungsverlauf (z.B. Anfangshemmung, Ubung, Ermiidung, zwischenzeitliche 
Schwankungen in Motivation und Aufmerksamkeit) beide Testhalften in gleicher 
Weise und konnen zur Erhohung der Korrelation beitragen. Wird die Odd-Even-Me- 
thode auf reine Geschwindigkeitstests (die Personen unterscheiden sich nur darin, wie 
weit sie in der vorgegebenen Zeit mit der Bearbeitung gekommen sind; Fehler kom- 
men kaum vor) angewendet, so stimmt die Zahl der Richtigen in den beiden Testhalf- 
ten trivialerweise fast genau iiberein (bei ungerader Zahl von Bearbeiteten gibt es bei 
den Ungeradzahligen um ein richtiges Item mehr, sonst stimmen die Testhalften ex- 
akt iiberein) und die Korrelation wird (fast) Eins sein. Diese Korrelation besagt aber 
nichts iiber die Reproduzierbarkeit des Testergebnisses bei gedachter Wiederholung 
unter denselben Bedingungen, ist also als Reliabilitatsschatzung ungeeignet. Als Al- 
ternative kommt eine Halbierung nach der Testzeit (nach der Halfte der Zeit wird ein 
Signal gegeben und die Probanden kennzeichnen mit einem Strich, wie weit sie bis 
dahin gekommen sind) in Betracht oder eine der oben genannten anderen Arten der 
Reliabilitatsbestimmung (Wiederholung, Paralleltest). Auch bei Tests, die zwar kei- 
ne reinen Geschwindigkeitstests sind, bei denen der Zeitdruck aber doch eine erheb- 
liche Rolle spielt, sollte die Odd-Even-Methode nicht verwendet werden, oder zumin- 
dest durch andere Arten der Reliabilitatsbestimmung erganzt werden. 

Die innere Konsistenz hangt im wesentlichen von den Korrelationen der Testteile 
(Items) untereinander ab und gibt somit Auskunft dariiber, inwieweit der Test in sich 
homogen ist. Letzteres ist oft auch zum Zusammenhang mit der Validitat (der Frage, 
was der Test miBt) von Interesse. Wenn die Items eines Tests unkorreliert sind, der 
Test also extrem heterogen ist, so ist die innere Konsistenz Null. Das gilt auch dann. 
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wenn jedes Item fur sich genommen perfekt reliabel ist, der Test also keine Fehler- 
varianz enthalt und eine Reliabilitat von Eins hat. Die innere Konsistenz unterschatzt in 
einem solchen Fall die Reliabilitat. In der Praxis hat man es allerdings meist mit rela- 
tiv homogenen Tests zu tun (man will Ahnliches in einen Testwert zusammenfassen 
und nicht Apfel und Birnen addieren). Zudem stammen die Daten aus nur einer Test- 
durchfiihrung, so daB (ahnlich wie bei der Testhalbierung) situative Bedingungen alle 
Testteile in gleicher Weise betreffen. ErfahrungsgemaB fallen Reliabilitatsschatzun- 
gen mittels interner Konsistenz verglichen mit Testwiederholungskoeffizienten nach 
einem langeren Zeitintervall meist ho her aus. 

Ubersicht 2.1: Mogliche Storeinfliisse bei verschiedenen Arten der Reliabilitats- 
bestimmung 

Testwiederholungsmethode: Erinnerung, Ubung, bei langerem Zeitintervall auch 
Veranderungen des Merkmals. 

Paralleltestmethode: Storeinfliisse wie bei Testwiederholung, zusatzlich: mangelnde 
Parallelitat der als Parallelformen angebotenen Tests. 

Testhalbierungsmethode: Situative Einfliisse (z.B. Tagesverfassung der Person) 
betreffen beide Testhalften in gleicher Weise und erhohen die Korrelation. Bei einer 
Halbierung nach der Odd-Even-Methode gilt das auch fur individuelle Leistungs- 
schwankungen im Verlauf der Versuchsdurchfiihrung. Bei Speed-Tests fiihrt die 
Odd-Even-Methode zu einer Uberschatzung der Reliabilitat und sollte nicht an- 
gewandt werden. 

Innere Konsistenz (Teilung in beliebig viele Teile; meist: Teilung in Einzelaufga- 
ben): Situative Einfliisse (Tagesverfassung) betreffen alle Teile (Items) und kon- 
nen die Korrelationen der Teile (Iteminterkorrelationen) und damit die innere 
Konsistenz erhohen. Heterogene Tests (Tests, bei denen die wahren Werte der Testteile 
niedrig korrelieren, weil jeder Teil etwas anderes miBt) ergeben auch bei hoher 
Reliabilitat niedrige Werte fiir die innere Konsistenz. Ihre Reliabilitat wird unter- 
schatzt. 



Hat man nun fiir eine Personenpopulation die Testvarianz und die auf die eine oder 
andere Art bestimmte Reliabilitat vorliegen, so kann man aus diesen beiden Angaben 
die Fehlervarianz berechnen (die Ableitung von Formel [2.7] ergibt sich aus [2.4] und 
[2.5]): 

[2.7] o 2 (F) = a 2 (X) • (1 -Rel) 

Die Wurzel aus der Fehlervarianz heiBt Standardmefifehler. 

[2.8] o (F ) = a (X) ■ VO -Rel) 

Nimmt man weiter an, daB die MeBfehler normalverteilt sind und daB die Fehler- 
varianz in alien Skalenbereichen gleich groB ist, so kann man mithilfe des Standard- 
meBfehlers ein Konfidenzintervall fiir den wahren Wert eines Probanden angeben: 

Ausgehend von der Uberlegung, daB in einer Normalverteilung 95% der Falle in 
einem Bereich + 1.96 Streuungseinheiten liegen, kann man zunachst feststellen, daB 
ein Proband mit einem wahren Wert z vi mit 95%iger Sicherheit einen beobachteten 
Wert im Bereich 
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Tvi ± 1.96 0 (F) 



erzielt. 

Daraus laBt sich ableiten, daB die Grenzen des Konfidenzintervalls 



[2.9] Xw- 1.96 0(F) < <Xvi+ 1.96 0(F) 

mit 95%iger Sicherheit den wahren Wert eines Probanden einschlieBen. 

Auf ahnlichen Uberlegungen aufbauend kann man auch fur komplexere MaBe 
Konfidenzintervalle ableiten. Man kann z.B. eine kritische Differenz berechnen, die 
tiberschritten werden muB, damit der Unterschied zwischen zwei beobachteten Test- 
werten (bei der gewahlten Irrtumswahrscheinlichkeit a ) nicht mehr als meBfehlerbe- 
dingt anzusehen ist (siehe Kapitel 3.2). Die Giiltigkeit dieser Formeln setzt-wie oben 
erwahnt - gleiche Fehlervarianz in alien Skalenbereichen voraus. Diese Vorausset- 
zung, die auch als Homoskedastizitats-Annahme bezeichnet wird, ist empirisch priif- 
bar (indem man z.B. die Fehlervarianzen aus unterschiedlichen Teilpopulationen von 
Probanden berechnet) und praktisch von groBer Relevanz. Trotzdem wird ihr bei der 
Testkonstruktion erstaunlich wenig Aufmerksamkeit geschenkt: Kaum ein Testmanual 
enthalt hierzu explizite Angaben. 



2.2.3 Validitat 

Hier geht es um die Frage, ob der Test das erfaBt, was er erfassen soli. Formal konnte 
man die Validitat als Korrelation der Testwerte mit der Eigenschaft, die gemessen 
werden soli, definieren. Praktisch wird man die Validitat allerdings nicht mit einer ein- 
zigen Korrelation ausdriicken konnen, sondern je nach Testinhalt und Anwendungs- 
bereich eine Fitlle von Angaben zusammentragen miissen, die in ihrer Gesamtheit 
dariiber AufschluB geben, inwieweit der Test miBt, was er messen soli. 

Am einfachsten scheint die Frage nach der Validitat dann beantwortet zu sein, wenn 
die Testaufgaben selbst eine Stichprobe aus dem Verhaltensbereich sind, iiber den eine 
Aussage getroffen werden soli: z.B., wenn Rechtschreibkenntnisse durch ein Diktat 
abgepriift werden. In solchen Fallen spricht man von inhaltlicher Validitat (content 
validity), bisweilen auch von logischer Validitat. Inhaltliche Validitat sollte freilich 
nicht nur aufgrund des Augenscheins (zur sog. Augenscheinvaliditat siehe unten) 
beansprucht werden: In einem Diktat konnte z.B. der gewahlte Text nicht reprasenta- 
tiv sein, weil viele Fremdworter aus einem engen Spezialgebiet vorkommen oder weil 
bestimmte Rechtschreibregeln nicht zur Anwendung kommen. Die Frage, wie inhalt- 
liche Validitat zu erreichen ist, wurde speziell im Zusammenhang mit lehrzielorien- 
tierten Tests viel diskutiert. Eine zusammenfassende Darstellung findet man bei 
Klauer (1987). 

Mit inhaltlicher Validitat leicht zu verwechseln ist die Augenscheinvaliditat (face 
validity), zumal inhaltlich validen Tests in aller Regel auch Augenscheinvaliditat zu- 
kommt. Augenscheinvaliditat gibt an, inwieweit der Validitatsanspruch eines Tests 
einem Laien “vom bloBen Augenschein her” gerechtfertigt erscheint. Ein Intelligenz- 
test z.B. hat hohe Augenscheinvaliditat, wenn der Laie es aufgrund von Inhalt und 
Gestaltung des Tests fur plausibel halt, daB damit Intelligenz gemessen werden kann. 
Unter wissenschaftlichem Gesichtspunkt mag Augenscheinvaliditat zunachst als 
ganzlich irrelevant erscheinen. Es ist jedoch zu bedenken, daB fur die Mitteilbarkeit 
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Beispiel 2.1: Verschiedene Arten der Validitatsbestimmung: Angaben aus der Hand- 
anweisung zum Zahlen-Verbindungs-Test nach Oswald & Roth (1978). 

Der Zahlen-Verbindungs-Test (ZVT) nach Oswald & Roth (1978) wurde mit dem An- 
spruch entwickelt, durch Messung der kognitiven Leistungs- und Verarbeitungsgeschwin- 
digkeit ein - wenn auch spezifischer - Intelligenztest zu sein. 

Die Aufgabe des Probanden besteht darin, auf einem Blatt, das mit Zahlen bedruckt 
ist, die Ziffern der Reihe nach ( 1,2,3--- usw.) aufzuftnden und miteinander zu verbin- 
den. Es sind insgesamt vier Blatter mit moglichst hohem Arbeitstempo zu bearbei- 
ten. Gemessen wird die benotigte Zeit (oder bei vorgegebener Zeit die Anzahl der 
verbundenen Zahlen). 

Vom Inhalt der Aufgabenstellung her ist nicht ohne weiteres ersichtlich, daB es sich 
um einen Intelligenztest handelt. Man konnte ebensogut an einen Konzentrationstest 
denken. Der Test kann also als Intelligenztest nur begrenzt Augenscheinvaliditat be- 
anspruchen. Als empirische Belege fur die Validitat als Intelligenztest sind u.a. Kor- 
relationen mit fiinf verschiedenen, bekannten Intelligenztests an unterschiedlichen 
Stichproben erhoben worden (konvergente Validitat). Die Korrelationen fallen je nach 
Stichprobe mittel bis hoch aus. Fur zwei Tests, namlich PSB (=Priifsystem fur Schul- 
und Bildungsberatung nach Horn, 1969) und IST (=Intelligenz-Struktur-Test nach 
Amthauer, 1970) liegen auch Angaben fur Stichproben vor, die jeweils fur einen Al- 
tersjahrgang reprasentativ zusammengesetzt wurden. Dort liegen die Korrelationen 
zum ZVT um 0,7 bis 0,8. 

Weiter soil belegt werden, daB der ZVT nicht im wesentlichen nur Konzentrations- 
fahigkeit oder nur Handgeschwindigkeit erfaBt. Dazu wurden, wieder an unterschied- 
lichen Stichproben, Korrelationen zu bekannten Konzentrationstests und zu einem Test 
der Handgeschwindigkeit (Striche-Ziehen als reine Geschwindigkeitsaufgabe) berechnet. 
Die Korrelationen zu Konzentrationstests fallen deutlich niedriger aus als zu Intelli- 
genztests, die Korrelationen zum Striche-Ziehen schwanken um Null (diskriminante 
Validitat). Als weiterer Beitrag zur Konstruktvaliditat wurde der ZVT mit den Unter- 
tests aus verschiedenen bekannten Intelligenztests zusammen einer Faktorenanalyse 
unterzogen. Der ZVT zeigte die hochsten Ladungen in einem Faktor, der als “Kogni- 
tive Leistungsfahigkeit” interpretiert wurde (zu Grundgedanken der Faktoranalyse, 
Begriff der Fadung und Vorgehen bei der Interpretation siehe Kapitel 4.2). 

Die bisher genannten Methoden (Berechnung von Korrelationen als Angaben zur kon- 
vergenten und diskriminanten Validitat, Faktoranalysen) sind Standardmethoden, um 
Konstruktvaliditat zu belegen. Dariiber hinaus enthalt die Handanweisung eine Rei- 
he von weiteren Angaben (liber Beziehungen zu EEG-Variablen, liber Ubungseffek- 
te, iiber Stadt-Fand-Unterschiede, Unterschiede zwischen Heimkindem und anderen 
Hauptschiilern, usw.), die zwar jede fiir sich noch keinen Validitatsbeleg darstellen, 
die aber in ihrer Gesamtheit doch mit dazu beitragen, abzugrenzen, was der Test miBt. 
Angaben zur prognostischen Validitat sind in der Handanweisung kaum zu finden. Es 
werden einige Korrelationen zu Schulnoten und zu Schulleistungstests mitgeteilt, die 
relativ niedrig ausfallen. Uber den zeitlichen Abstand zwischen der Durchftihrung des 
ZVT und der Erhebung der Schulleistung ist nichts gesagt, so daB zu vermuten ist, 
daB es sich um eine gleichzeitige Erhebung handelt und nicht iiber eine Prognose im 
engeren Sinn (Vorhersage spaterer Leistungen). 
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des Testergebnisses und fur die Akzeptanz von Seiten des Probanden der Augen- 
scheinvaliditat eine ganz erhebliche Bedeutung zukommen diirfte. 

Die meisten psychologischen Tests zielen darauf ab, relativ komplexe psychologi- 
sche Konstrukte (Fahigkeiten, Einstellungen, Personlichkeitsmerkmale) zu erfassen, 
deren Bedeutung im Rahmen einer mehr oder weniger detailliert ausgearbeiteten psy- 
chologischen Theorie beschrieben wird. Die Tests sind hier in der Regel Indikatoren 
und nicht einfach Verhaltensstichproben, so daB inhaltliche Validitat nicht in Anspruch 
genommen werden kann. Um zu zeigen, daB der Test das angepeilte Konstrukt erfaBt, 
also Konstruktvaliditat (construct validity) besitzt, konnen Belege verschiedener Art 
herangezogen werden: Die Testergebnisse konnen mit anderen Indikatoren fur das- 
selbe Konstrukt (Tests mitahnlichem Geltungsanspruch; Beurteilungen durch Klas- 
senkameraden, Eltem, Lehrer; Verhaltensbeobachtung in einschlagigen Situationen) 
korreliert werden. Fallen diese Korrelationen hoch aus, so spricht man von konver- 
genter Validitat oder Ubereinstimmungsvaliditdt (convergent validity). Dariiber hin- 
aus kann man untersuchen, ob sich das Konstrukt von bedeutungsahnlichen Konstruk- 
ten hinreichend abgrenzen und im Test hinlanglich frei von unerwtinschten 
Komponenten erfassen laBt. So z.B. konnte man fragen, ob sich Kreativitat begrifflich 
von allgemeiner Intelligenz hinreichend klar abgrenzen laBt, und ob ein bestimmter 
Test nicht an Stelle von Einfallsreichtum zu einem hohen Teil Schreibgeschwindig- 
keit erfaBt. Solche Fragen der Abgrenzung gegen bedeutungsverwandte Konstrukte 
und gegen irrelevante Komponenten im Test sind Fragen nach der diskriminanten 
Validitat (discriminant validity). Konvergente und diskriminante Validitat werden 
haufig mithilfe von Faktorenanalysen untersucht, wobei sich in Verbindung mit ent- 
sprechenden Datenerhebungsplanen konfirmatorische Faktoranalysen anbieten (Na- 
heres siehe Kapitel 4.2.3). Beitrage zur Konstruktvalidierung konnen aber auch auf 
ganz anderen Wegen geleistet werden: Auch Effekte experimenteller Variation (Be- 
einflussung der Motivation durch zusatzliche Anreize, der Losungsstrategie durch 
spezielle Instruktion, Einfiihrung/Aufhebung von Zeitdruck usw.) konnen mit dariiber 
AufschluB geben, was der Test miBt. 

Uber die Frage nach der Konstruktvaliditat hinausgehend stellt sich fur den Prak- 
tiker die Frage, mit welchem Erfolg sich der Test in der diagnostischen Praxis einset- 
zen laBt. Ihn interessiert, wie die Testprognose mit spater anfallenden Bewahrungs- 
kriterien korreliert, also die prognostische Validitat. Sind Test- und Kriteriumswert 
bivariat normalverteilt, so lassen sich die Kriteriumswerte mittels linearer Regression 
aus den Testwerten vorhersagen: 

[2.10] Y* = p X + a 

wobei : Y* = vorhergesagter Kriteriumswert 

X = Testwert 



p = p xy -^' = Regressionskoeffizient 

p«y = Korrelation zwischen Test und Kriterium 

a = p.y - P(U = Regressionskonstante 

|ix , |T y = Mittelwerte von Test und Kriterium 
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(a = griechisch: alpha, (3 = griechisch: beta, (X = griechisch: my ) 

Die Genauigkeit der Schatzung laBt sich mithilfe des Standardschatzfehlers o y/x an- 
geben: 

[2.111 o,/«= Oy-y/O -p >y 2 ) 

Mit einer Sicherheit von 0.95 liegt der Kriteriumswert in einem Bereich von 

Y* ± 1 .96 Oy/x 

Diese Genauigkeitsangabe setzt voraus, daB die Streuung um die Regressionslinie 
uberall gleich ist und daB die Abweichungen vom Regressionsschatzwert jeweils 
normalverteilt sind. (Homoskedastizitdt der Regression von Y auf X). Diese Voraus- 
setzungen sind erfullt, wenn Test und Kriterium - wie oben angenommen - bivariat 
normalverteilt sind. Sie waren nicht erfullt, wenn z.B. im unteren und mittleren Be- 
reich ein enger Zusammenhang zwischen Test- und Kriteriumswerten besttinde, nicht 
aber im oberen Bereich, und mithin die Vorhersagegenauigkeit in den einzelnen Be- 
reichen stark unterschiedlich ware. Auch bei Tests mit eng umschriebenem Einsatz- 
bereich, wie z.B. Schuleingangstests, sind viele unterschiedliche Bewahrungskriteri- 
en erhebbar: Man kann den Schulerfolg nach unterschiedlichen Zeitintervallen 
erheben, man kann Noten, Lehrerurteil oder Schulleistungstests heranziehen, man 
kann Eltemauskiinfte iiber Schulangst oder Schulunlust einholen, usw. Auch hier ist 
also die Validitat nicht auf die Angabe einer einzigen Zahl beschrankt. Bei Tests, wie 
z.B. allgemeinen Intelligenztests, die im Zusammenhang mit recht unterschiedlichen 
Fragestellungen zum Einsatz kommen konnen, ist die Zahl moglicher Kriterien fur 
prognostische Validitat unbegrenzt, und die Aufgabe, prognostische Validitat zu un- 
tersuchen, grundsatzlich nicht abschlieBbar. 



2.2.4 Beziehungen zwischen Reliabilitat und Validitat 

Wenn die Validitat als Korrelation zwischen einem Test X (z.B. einem Konzentrati- 
onstest) und einem Kriterium Y (z.B. der Schulleistung, erfaBt mit einem bestimm- 
ten Schulleistungstest) bestimmt wird, so hangt diese Korrelation nicht nur davon ab, 
wie eng das, was der Test miBt (die Konzentrationsfahigkeit), mit dem, was das Kri- 
teriumsmaB erfaBt (der Schulleistung), zusammenhangt, sondern auch von der Re- 
liabilitat der beiden MaBe. Selbst wenn die Konzentrationsfahigkeit eine wesentliche 
Grundlage der Schulleistung darstellt, kann der beobachtete Zusammenhang nicht 
hoch ausfallen, wenn beide MaBe einen hohen Anteil an zufalligen MeBfehlern ent- 
halten, also unreliabel sind. 

Es laBt sich zeigen (siehe Lord & Novick, 1968, Kapitel 3.9), daB zwischen der 
Korrelation der wahren Werte T x und T y und der Korrelation der beobachteten Werte 
X und Y folgende Beziehung besteht: 

Y) 

Rel(Y) 

Ftir die Korrelation von T x mit Y bzw. von T y mit X gilt 



[ 2 . 12 ] 



P (TxTy) = 



P(X 



VRel(X) 
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[2.13a] 

[2.13b] 




Formel [2.12] wird als doppelte, Formel [2.13a] bzw. [2.13b] als einfache Minde- 
rungskorrektur bezeichnet, bisweilen auch als Verdunnungsformel (als wortliche 
Ubersetzung des englischen Ausdrucks Correction for Attenuation). Die minderungs- 
korrigierten Korrelationen werden bisweilen auch mit dem mathematischen Symbol 
fur “unendlich” als p<**» (doppelte Minderungskorrektur nach Formel [2.12] und p» y 
(einfache Minderungskorrektur nach Formel [2.13a]) geschrieben. Diese Schreibwei- 
se nimmt darauf Bezug, daB perfekte Reliabilitat (der Test - analog: das Kriterium - 
besteht nur aus wahren Werten) theoretisch durch unendliche Testverlangerung er- 
reicht werden konnte (zum Zusammenhang zwischen Testlange und Reliabilitat sie- 
he Lord & Novick, 1968, Kapitel 5.10; Fischer 1974, Kapitel 4). 

Mithilfe der Minderungskorrektur ist es also moglich, Korrelationen zwischen 
wahren Werten zu berechnen, obwohl man fur keine einzige Person den wahren Wert 
kennt. Solche minderungskorrigierte Korrelationen interessieren 

(a) in der Grundlagenforschung: Wenn man sich fur die Determinanten der Schullei- 
stung interessiert, so will man von der Frage der Reliabilitat der speziellen Test- und 
KriterienmaBe absehen und wird deshalb die Korrelation der wahren Werte als Kor- 
relation der beiden Fahigkeiten berechnen. 

(b) bei der Testkonstruktion: Formel [2.13a] gibt dariiber Auskunft, inwieweit durch 
Reliabilitatsverbesserung (z.B. durch Verlangern des Tests durch Hinzufiigen weite- 
rer Aufgaben, Ausschalten von Ratemoglichkeiten, genauere Festlegung von Auswer- 
tungsregeln usw.) die prognostische Validitat des Tests gesteigert werden kann. Im 
praktisch unrealistischen Idealfall, wenn es gelange, die Reliabilitat auf den Wert Eins 
zu steigern, wilrde die Validitat auf den in Formel [2.13a] errechneten Wert steigen. 
Ist dieser Wert zu niedrig, so kann eine weitere Verbesserung nur durch eine Ande- 
rung des Testinhalts oder Hinzufiigen weiterer Tests (siehe Kapitel 4) erreicht wer- 
den, nicht aber durch bloBe Reliabilitatsverbesserung am vorliegenden Test. 

Analog dazu gibt Formel [2.13b] Auskunft, inwieweit die Validitat maximal steigen 
konnte, wenn bei unverandert belassenem Test X das KriteriumsmaB perfekt reliabel 
gemacht werden konnte. Ist der nach Formel [2.13b] errechnete Wert unbefriedigend, 
so kann dieses unbefriedigende Ergebnis nicht mehr auf bloBe Reliabilitatsmangel bei 
der Erfassung des Kriteriums zuriickgefuhrt werden. Die Revision muB an anderer 
Stelle (Reliabilitatsverbesserung des Tests, inhaltliche Verwandtschaft zwischen Test 
und Kriterium) ansetzen. 



2.3 Zur Populationsabhangigkeit der klassischen Giitekriterien 

Die Giitekriterien der klassischen Testtheorie, namlich Objektivitat, Reliabilitat und 
Validitat beziehen sich stets auf eine bestimmte Personenpopulation. Sie andem sich, 
wenn die Population anders zusammengesetzt ist. Das ist am leichtesten am Beispiel 
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der Reliabilitat zu erkennen: Die Reliabilitat ist der Anted der wahren Varianz an der 
Testvarianz (vgl. Kapitel 2.2): 

[2 14] Rel = ° 

L J Kei ct 2 (X) c 2 (T)+a 2 (F) 

Setzt man voraus, daB die Fehlervarianz gleich bleibt, so ist die Reliabilitat umso 
groBer, je mehr wahre Varianz vorhanden ist. Wie man an Formel [2.14] sieht, ist die 
Reliabilitat Null, wenn in einer extrem homogenen Population alle Personen densel- 
ben wahren Wert haben, so daB die wahre Varianz Null ist. Die beobachtete Testva- 
rianz besteht dann nur aus Fehlervarianz. Ist dagegen die Population extrem hetero- 
gen, die Varianz der wahren Werte also sehr groB, so geht die Reliabilitat gegen Eins. 
Mithilfe entsprechender Formeln ist es moglich, zu berechnen, wie sich die Reliabi- 
litat in Abhangigkeit von der in der Population vorhandenen Testvarianz andert (Lord 
& Novick, 1968, Kapitel 6). Man muB dazu in einer Population Varianz und Reliabi- 
litat kennen (z.B. fur einen bestimmten Altersjahrgang aus der Testhandanweisung 
entnehmen) und kann dann fur eine andere Population (z.B. nur Oberschiiler dieses 
Jahrgangs), von der man nur die Varianz kennt (aus der Testhandanweisung, aus ei- 
genen Daten, oder nur als grobe Schatzung aufgrund von Erfahrungen mit ahnlichen 
Tests), berechnen, wie dort die Reliabilitat ausfallen wiirde. 



Rel* = 1 



(1 - Rel) 



Rel = bekannte Reliabilitat in einer Population mit bekannter Testvarianz O: 
Rel* = Reliabilitat, die berechnet werden soil 

of = Testvarianz in der Population, fur die die Reliabilitat (Rel*) berechnet 
werden soil 



Ahnliches gilt fur die Validitat: Auch die Korrelation des Tests mit einem Validi- 
tatskriterium hangt von der Zusammensetzung der Personenpopulation ab. Unter be- 
stimmten Voraussetzungen (Linearitat der Regression des Kriteriums Y auf den Test 
X, gleiche Streuung der Kriteriumswerte um die Regression in alien Skalenbereichen) 
kann man berechnen, wie sich die Kriteriumskorrelation andert, wenn sie an einer 
Population mit groBerer oder kleinerer Testvarianz berechnet wird (Lord & Novick, 
1968, Kapitel 6). Je groBer die Testvarianz, desto hoher fallt unter den genannten 
Voraussetzungen die Kriteriumskorrelation aus. Das ist in Abbildung 2.1 am Beispiel 
der bivariaten Normalverteilung zwischen Test und Kriterium veranschaulicht: Be- 
trachtet man die gesamte Punktwolke, so ist die Korrelation zwischen Test und Kri- 
terium r = 0.71. Betrachtet man nur die Probanden mit einem Testwert iiber X knl , so 
fallt in dieser Teilpopulation die Korrelation niedriger aus. Das sieht man schon an 
der Form der Punktwolke, die eher kugelig und weniger langgestreckt ist, als die 
Punktwolke fur die Gesamtpopulation. Berechnet man die Korrelation in der Teilpo- 
pulation, so erhalt man r = .63. 

Die bei Lord & Novick (1968, Kapitel 6.8) unter den genannten Voraussetzungen 
abgeleitete Formel iiber die Anderung der Validitat in Abhangigkeit von der Testva- 
rianz lautet: 

[2.16] 

p* y = bekannte Validitat in der Population mit Testvarianz cf 
p*x y = zu berechnende Validitat in der Population mit Testvarianz or** 
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Die Objektivitat kann in Form von Korrelationen zwischen Beurteilern oder auch 
in AnschluB an eine varianzanalytische Bestimmung in Form von Varianzkomponen- 
ten ausgedruckt werden. In jedem Fall hangt das Ergebnis von der Zusammensetzung 
der Probandenstichprobe ab, die es zu beurteilen gait. Unter sonst gleichen Umstan- 
den gilt: Je groBer die Varianz in der Probandenstichprobe, desto hoher die Kennwer- 
te fur die Objektivitat. 

Die Tatsache, daB die Gutekriterien der klassischen Testtheorie populationsbezogen 
definiert sind, wurde in den Siebzigerjahren von Vertretern des Latent- Trait-Ansat- 
zes (z.B. Fischer, 1974, S. 137) als wichtiger Kritikpunkt ins Feld geftihrt, stellt aber 
unseres Erachtens keinen grundsatzlichen Mangel dar. Die Gutekriterien geben an, 
was der Test, angewendet auf eine bestimmte Population, zu leisten vermag. Es gibt, 
wie erwahnt, die Moglichkeit, die Koeffizienten auf Populationen mit anderer V arianz 
umzurechnen. Dartiber hinaus gibt es auch im Rahmen der klassischen Testtheorie die 
Moglichkeit, Kennwerte zu benutzen, die nicht populationsbezogen definiert sind: 
Mit dem StandardmeBfehler und dem daraus konstruierten Konfidenzintervall fur den 
wahren Wert kann man die MeBgenauigkeit des Tests charakterisieren, mit dem Stan- 
dardschatzfehler die Vorhersagegenauigkeit. Wenn die Voraussetzung der Homoske- 
dastizitat (gleiche MeBgenauigkeit bzw. Vorhersagegenauigkeit in alien Skalenberei- 
chen) erfiillt ist, so sind StandardmeBfehler und Standardschatzfehler von der 
Verteilung der wahren Werte unabhangig. Sie sind allerdings in ihrer numerischen Be- 
deutung an die verwendete Skala gebunden, die eine Rohpunktskala oder auch eine 
populationsspezifisch definierte Normskala (siehe 2.5) sein kann. 



2.4 Die Rolle der Normalverteilung in der Testtheorie 

Bei der Testkonstruktion strebt man meist eine Normalverteilung der Testrohwerte an. 
Hinweise, wie man die Itemschwierigkeiten zusammenstellen soli, um gute Aus- 
sichten auf normalverteilte Testrohwerte zu haben, findet man bei Lienert (1961). 
Die Normalverteilung hat vielfach inhaltliche Plausibilitat: Bei Eigenschaften, die 
von sehr vielen Determinanten abhangen, ist es plausibel, daB Extremwerte selten, 
mittlere haufig zustande kommen. Zudem verteilen sich verschiedene korperliche 
Merkmale (z.B. die KorpergroBe) annahemd normal. Vor allem aber hat die Nor- 
malverteilung besonders einfache statistische Eigenschaften: In multivariaten Nor- 
malverteilungen sind alle Regressionen linear und homoskedastisch, die Abweichun- 
gen von der Regressionslinie verteilen sich wieder normal. Konstruiert man Tests so, 
daB sie sich in der einschlagigen Bezugspopulation (z.B. einem Altersjahrgang) 
normal verteilen, so kann man erwarten, daB man zwischen diesen Tests einfache 
Beziehungen findet. Mathematisch gesehen folgt zwar aus der Normalverteilung je- 
des einzelnen Tests nicht die multivariate Normalverteilung als gemeinsame Vertei- 
lung, praktisch gesehen sind jedoch dafiir giinstige Voraussetzungen geschaffen. Sind 
Paralleltests bivariat normalverteilt, so sind die MeBfehler normalverteilt, und ihre 
Varianz ist in alien Skalenbereichen gleich groB. Damit sind die Voraussetzungen fur 
die Konfidenzintervalle mit dem StandardmeBfehler (z.B. Konfidenzgrenzen fur den 
wahren Wert, Angabe von kritischen Differenzen usw.) erfiillt. Analoges gilt bei bi- 
variater Normalverteilung von Test und Kriterium: Zur Vorhersage kann die lineare 
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2. Grundziige der klassischen Testtheorie 



Beispiel 2.2 : Populationsabhangigkeit von Reliabilitats- und Validitatskoeffizienten: 
Angaben aus der Handanweisung zum Zahlen-Verbindungs-Test (ZVT) nach Oswald 
& Roth ( 1978). 



Der ZVT ist ein nicht-verbaler Kurz-Intelligenz-Test, der ab einem Alter von 8 
Jahren verwendet werden kann. Die Testhandanweisung enthalt vielfaltige Angaben 
zu Reliabilitat und Validitat. So werden auf S. 16 u.a. Testwiederholungs-Relia- 
bilitaten nach Schularten getrennt und in der Gesamtstichprobe angegeben (zwei 
Stichproben zu je 96 Schiilern, Alter 14 Jahre). 



Testwiederholung 
nach 6 Wochen 
n = 96 



Testwiederholung 
nach 6 Monaten 



Sonderschiiler .86 
Hauptschiiler .94 
Realschiiler .84 
Gymnasiasten .94 
Insgesamt .95 

Sonderschiiler .95 
Hauptschiiler .90 
Realschiiler .87 
Gymnasiasten .85 
Insgesamt .97 



In beiden Fallen sieht man, daB die nach Schulart getrennt berechneten Koeffi- 
zienten niedriger liegen als der Koeffizient fur die Gesamtstichprobe. Das ist aufgrund 
der Varianzeinschrankung in den Teilstichproben gegeniiber der Gesamtstichprobe 
auch zu erwarten. (Angaben zu den Streuungen findet man auf S. 47: Die Streu- 
ungen des IQ liegen in den einzelnen Schularten zwischen 10 und 13, wahrend 
sie in einer alle Schularten umfassenden reprasentativen Stichprobe 15 betragt). 
Die Abhangigkeit der Korrelationskoeffizienten von der Homogenitat oder He- 
terogenitat der Stichprobe zeigt sich auch bei den Validitats-Koeffizienten. Auf 
S. 20-21 der Handanweisung werden u.a. Korrelationen des ZVT zum Priif-Sy- 
stem fiir Schul- und Bildungsberatung nach Horn (PSB, 1969), dem Intelligenz- 
Struktur-Test nach Amthauer (IST, 1955, 1970) fiir verschiedene Stichproben (u.a. 
altersreprasentative und nach Schularten getrennte Stichproben) mitgeteilt. Die 
Ergebnisse werden wie folgt zusammengefaBt (S. 21): “Die korrelativen Zusam- 
menhange in den reprasentativ gestalteten Stichproben eines Umfangs zwischen 
N = 45 und N = 126 zwischen PSB und ZVT sowie IST und ZVT variieren zwi- 
schen r = -.69 und r = -.80. (....). In den homogeneren und damit beziiglich einer 
hypothetischen Intelligenznormalverteilung varianzbeschnittenen Stichproben fielen 
die beobachteten Zusammenhange etwas geringer aus: Sie variieren bei Stichproben 
zwischen N = 24 und N = 100 zwischen r = -.40 und r = -.83 und liegen im Durch- 
schnitt bei r = -.50“ (Anmerkung: die negativen Vorzeichen ergeben sich daraus, 
daB beim ZVT die Bearbeitungszeit gemessen wird, also hohe Werte schlechten 
Leistungen entsprechen). 
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Regression verwendet werden, die Vorhersagegenauigkeit ist in alien Skalenbereichen 
gleich gut und kann mit dem Standardschatzfehler angegeben werden. 

Auch wenn aus den genannten Griinden eine Normalverteilung der Testwerte als 
wiinschenswert gilt, so ist es doch nicht sinnvoll, in jedem Fall Normalverteilung er- 
reichen zu wollen. Wenn z.B. die Einstellungen zu einem Themenbereich polarisiert 
sind, so ist eine zweigipfelige Verteilung zu erwarten, und es macht wenig Sinn, ei- 
nen Gipfel im Mittelbereich erzwingen zu wollen. Ahnliches gilt, wenn nach Symp- 
tomen von Verhaltensstorungen gefragt wird, die in der Normalpopulation selten sind. 
Hier wird die Verteilung schief sein (die meisten Probanden weisen keine oder nur 
einige wenige Symptome auf), ohne daB das ein Mangel des Tests ware. 

In anderen Fallen konnen schiefe Verteilungen dadurch bedingt sein, daB bei der 
Messung eines Merkmals, das sonst normalverteilt ist (z.B. Werte in Intelligenztests), 
nur Items hoher Schwierigkeit (rechtsschiefe Verteilung) oder nur Items niedriger 
Schwierigkeit (linksschiefe Verteilung) herangezogen wurden. In solchen Fallen sollte 
der Test um entsprechende (schwerere oder leichtere) Aufgaben erganzt werden. Pro- 
blematisch ware es in einem solchen Fall, Normalverteilung nur durch eine nachtrag- 
liche Transformation der Rohwertskala kiinstlich herzustellen. Hochst wahrscheinlich 
wiirde die MeBgenauigkeit nach der Normalisierung ungleich, und zwar in den kiinst- 
lich gedehnten Skalenbereichen schlechter sein. 

Schiefe Verteilungen treten auch bei Schulnoten und anderen Einschatzungsska- 
len haufig auf. Bei der Berechnung von Korrelationen stellt sich dann die Frage, ob 
die Skalen zunachst transformiert werden sollen, um fur alle Variablen eine Normal- 
verteilung zu erhalten. Praktisch bedeutet das, daB den gleichen Abstanden auf der 
Notenskala ungleiche Abstande auf der transformierten Skala zugeordnet werden. Ob 
dadurch tatsachlich Linearitat der Regression erreicht wird und die in den Daten vor- 
handenen Zusammenhange besser beschrieben werden, bleibt jedoch im Einzelfall zu 
priifen. 



2.5 Die Normierung von Testwerten 

Testergebnisse liegen zunachst in Form von Rohwerten (Anzahl richtig geloster Auf- 
gaben, Anzahl der Ja-Antworten, fur die Losung benotigte Zeit usw.) vor. Um die 
Interpretation des Testwerts eines Probanden zu erleichtern, ist es in der Regel niitz- 
lich, ihn mit den Testwerten anderer Probanden (Probanden gleichen Alters, gleicher 
oder anderer Schulbildung, verschiedene Berufsgruppen usw.) zu vergleichen. Des- 
halb ist es wiinschenswert, daB der Testautor fur moglichst viele verschiedene Popu- 
lationen Vergleichsdaten zur Verfiigung stellt. Solche Vergleichsdaten werden in Form 
von Normentabellen angegeben. 

Wohl am verbreitetsten ist die Normierung anhand von Altersjahrgangen, die zu- 
nachst im Zusammenhang mit Intelligenztests eingefiihrt wurde. Um Normentabel- 
len fur eine bestimmte Altersstufe zu erstellen, muB zunachst aus dieser Altersstufe 
eine representative Stichprobe gezogen und die Verteilung der Testrohwerte festge- 
stellt werden. Angenommen, die Rohwerte verteilen sich normal, so kann man sie in 
z-Werte umrechnen und ihnen die entsprechenden Prozentrange der Standard-Nor- 
malverteilung zuordnen. Ein z-Wert gibt an, wieviele Streuungseinheiten ein Proband 
iiber dem Durchschnitt liegt. 
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2. Grundziige der klassischen Testtheorie 



X = Testrohwert 

p.cj = Mittelwert und Streuung der Testrohwerte in der Normierungs- 
population, z.B. einem Altersjahrgang 

Die z-Werte haben den Mittelwert Null und die Streuung Eins. Von da aus kann man 
zu einer Skala mit beliebig festgelegtem Mittelwert und beliebig festgelegter Streu- 




Rohpunkte 
z-Werte 
IQ-Werte 
T -Werte 
SW-Werte 



Centil-Werfe 



Stanine- 

Werte 

Prozent- 

riinge 



Abbildung 2.2: Normalverteilte Testrohwerte mit Mittelwert p. = 20 und Streuung o = 7 und 
verschiedene gebrauchliche Normskalen 
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ung iibergehen, indem man den z-Wert mit der gewiinschten Streuung multipliziert 
und den gewiinschten Mittelwert addiert. Im folgenden sind einige gebrauchliche 
Arten der Normierung angegeben: 

Intelligenz-Quotienten: IQ= 100 + 15z 

T-Werte: T = 50 + lOz 

Standardwerte, Z-Werte: Z = SW = 100 + lOz 

Centilwerte: C = 5 + 2 z 

Die Umrechnung von Rohwerten in z-Werte nach Formel [2.17] und der darauf fol- 
gende Ubergang zu einer der angegebenen Normskalen sind lineare Transformatio- 
nen (lineare Transformationen erlauben, daB eine MeBwertreihe mit einer Zahl a mul- 
tipliziert wird und daB eine Zahl b hinzuaddiert wird). Lineare Transformationen 
lassen die Intervalleigenschaften einer Skala unverandert: Abstande, die auf der ei- 
nen Skala gleich groB sind, sind auch auf der anderen Skala gleich groB. Abbildung 
2.2 zeigt normalverteilte Rohwerte und verschiedene Normskalen (z, IQ, T, SW, C), 
die daraus durch lineare Transformationen hervorgehen. 

In der untersten Reihe von Abbildung 2.2 werden den Rohwerten Prozentrange zu- 
geordnet. Ein Prozentrang gibt zu jedem Rohwert X an, wieviel Prozent der Proban- 
den in einer Population einen Rohwert kleiner/gleich X erzielen. Hat z.B. ein Proband 
einen Punktwert erreicht, dem ein Prozentrang von 80 entspricht, so heiBt das, daB in 
der Population 80% der Probanden einen niedrigeren, hochstens gleichen, und 20% 
der Probanden einen hoheren Punktwert erreichen. In Abbildung 2.2 sieht man, daB 
bei normalverteilten Rohwerten Prozentrange keine lineare Transformation der 
Rohwerte sind: Demselben Rohpunktunterschied entspricht im Mittelbereich ein gros- 
ser, an den Skalenenden ein kleiner Unterschied im Prozentrang. Die Prozentrang- 
skala dehnt also bei einer Normalverteilung die Abstande im Mittelbereich und staucht 
sie an den Enden. Prozentrange haben aber den Vorteil, daB sie eine anschauliche, 
auch dem Laien leicht verstandliche Bedeutung haben. 

Die Stanine-Skala baut auf der Prozentrang-Skala auf. Sie hat insgesamt 9 Stufen (das 
Wort “Stanine’' steht kurz fiir “Standard nine’’). Sie ordnet den Prozentrangen wie folgt 
Skalenwerte zu: 



Prozentrang 
o - 


4 


Stanine 


Relative Haufigkeit 
4% 


iiber 4 - 


11 


2 


7 % 


iiber 11 - 


23 


3 


12 % 


iiber 23 - 


40 


4 


17 % 


iiber 40 - 


60 


5 


20 % 


iiber 60 - 


77 


6 


17 % 


iiber 77 - 


89 


7 


12 % 


iiber 89 - 


96 


8 


7 % 


iiber 96 - 


100 


9 


4% 



Die Zusammenfassung der Prozentrange zu den Stufen der Stanine-Skala erfolgt so, 
daB die Stanine -Werte (von der Vergroberung auf nur 9 Skalenwerte abgesehen) nor- 
malverteilt sind, wobei der Mittelwert der Normalverteilung auf 5 und die Streuung 
auf 2 festgesetzt ist. Die Stanine-Skala entspricht somit einer Centil-Skala, bei der die 
Centilwerte unter 1 dem Wert 1 und die Centilwerte iiber 9 dem Wert 9 zugeschlagen 
werden. 
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2. Grandzuge der klassischen Testtheorie 



Die Umrechnung des Testergebnisses von Rohwerten in Normwerte dient dazu, das 
Testergebnis eines Probanden relativ zu den Leistungen in einer Vergleichspopulation, 
der Normpopulation, anzugeben. Bei Intelligenztests ist eine Normierung bezogen auf 
Altersstufen iiblich. Bei anderen Tests mogen andere Bezugspopulationen sinnvoller 
sein: bei Schulleistungstests z.B. die Schuler der entsprechenden Schulstufe und 
Schulart, usw. Die Erhebung der Testnormen ist die aufwendigste Phase in der Test- 
konstruktion. Hier kommt es darauf an, wirklich representative Stichproben zu zie- 
hen. Jede Verzerrung in der Normierungsstichprobe fiihrt zu entsprechenden Fehlem 
bei der Beurteilung der einzelnen Probanden, die spater mit dem Test untersucht wer- 
den: War die Normstichprobe verglichen mit der Population zu “gut”, so wird hinter- 
her der einzelne Proband zu “schlecht”, weil zu streng beurteilt. Ist in der Normstich- 
probe die Varianz reduziert (weil z.B. im Streben nach Reprasentativitat moglichst 
“durchschnittliche” Schulen in die Normstichprobe aufgenommen wurden), so er- 
scheint spater die Stellung des Probanden extremer (positiv oder negativ) als sie in 
der Population tatsachlich ist. Da die Datenerhebung fur eine Testnormierung sehr 
aufwendig ist und deshalb viele Tests in diesem Punkt Mangel aufweisen, wird man 
bei der Beurteilung der Qualitat eines Tests auf die Qualitat der Normen besonders 
zu achten haben. Es gibt allerdings auch verschiedene Einsatzbereiche von Tests, wo 
keine Normen benotigt werden. Deshalb wird die Normierung auch nicht zu den 
Hauptgutekriterien gerechnet. Wenn es z.B. datum geht, die Probanden mit den hoch- 
sten oder niedrigsten Testleistungen zu selegieren, so geniigen Testrohwerte. Dassel- 
be gilt fur viele Fragestellungen in der Forschung, wenn z.B. Mittelwerte verschie- 
dener Gruppen verglichen oder Korrelationen mit Testleistungen berechnet werden 
sollen. Wenn alle Probanden aus derselben Population stammen, so daB der Ubergang 
von Rohwerten zu Normwerten lediglich eine lineare Transformation der MeBwerte 
darstellt, so hat eine solche Transformation keinerlei EinfluB auf die Hohe der Korre- 
lationen oder die Signifikanz von Mittelwertsunterschieden, ist also tiberflussig. Test- 
normen sind vor allem fur die beratende Diagnostik von Interesse, indem sie helfen, 
das Testergebnis des einzelnen Probanden in Relation zu verschiedenen Vergleichspo- 
pulationen richtig einzuordnen. 




2.5 Die Normierung von Testwerten 



61 



Einfuhrende Literatur: 

Belser, H. (1967). Testentwicklung. Verfahren und Probleme der Entwicklung von 
Gruppen-Intelligenztests, dargesteUt am Beispiel der Frankfurter Analogietests. 
Weinheim: Beltz. 

Lienert, G.A. (1991). Testaufbau und Testanalyse. 5.Auflage. Weinheim: Psych- 
ologic Verlags Union. 

Erlauterungen zu Begriffen aus der Statistik und Testtheorie findet man auch bei: 

Kriz, J. & Lisch, R. (1988). Methoden-Lexikon fur Mediziner , Psychologen, Sozio- 
logen. Miinchen: Psychologie Verlags Union. 



Weiterfuhrende Literatur: 

Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Rea- 
ding, Mass.: Addison-Wesley. 

Fischer, G. H. (1974). Einjuhrung in die Theorie psychologischer Tests. Bern: Huber. 




3. Die Interpretation von Testbatterien 



1. Wie bildet man aus mehreren Untertests einen Gesamtstandardwert? 
Was ist der Unterschied zwischen dem Gesamtstandardwert und der mittle- 
ren Profilhdhe? 

2. Wie groB muB die Differenz zweier beobachteter Testwerte mindestens sein, 
damit mit hinreichender Sicherheit ausgeschlossen werden kann, daB sie nur 
durch MeBfehler zustande gekommen ist? 

Wie verteilen sich die Differenzen zwischen zwei Untertests in der Popula- 
tion? 

Wie haufig wird eine bestimmte Differenz iiberschritten? 

Wann ist eine Untertest-Leistung verglichen mit den ubrigen erwartungswidrig? 

3. Welche Probleme treten auf, wenn das Testprofil eines Probanden mit einem 
Gruppenprofil (z.B. Berufsgruppenprofil) als Anforderungsprofil verglichen 



Vorstrukturierende Lesehilfe 

Viele Tests mit umfassendem Geltungsanspruch, wie z.B. allgemeine Intelligenztests, 
Schulleistungstests, aber auch umfassendere Fragebogen, bestehen aus einer Reihe 
von Untertests. Bei der Auswertung kann jeder Untertest fur sich betrachtet und der 
Untertestwert mit den Normdaten in Beziehung gesetzt werden. Die standardisierten 
Untertestwerte konnen dann miteinander verglichen werden, um Starken und Schwa- 
chen des Probanden zu beschreiben, oder auch um besondere Diskrepanzen (z.B. als 
Hinweis auf pathologische Ausfalle) zu diagnostizieren. Dariiber hinaus wird ge- 
wohnlich ein Gesamttestwert gebildet, der das Testergebnis insgesamt moglichst gut 
reprasentieren soil. Im folgenden soil zunachst der Gesamttestwert betrachtet werden 
(3.1), danach werden typische Fragestellungen behandelt, die auftreten, wenn im Sin- 
ne einer Profilinterpretation die Leistungen eines Probanden in verschiedenen Unter- 
tests verglichen werden (3.2). Im letzten Abschnitt (3.3) werden Probleme behandelt, 
die bei der Interpretation von Gruppenprofilen als Anforderungsprofile auftreten. 



3.1 Zum Gesamttestwert 

Um den Gesamttestwert zu bilden, werden zunachst die Ergebnisse aus den einzel- 
nen Untertests addiert. Sofern die Rohpunkte in den einzelnen Untertests in etwa die 
gleiche Varianz haben, konnen einfach die Rohpunkte zu einer Rohpunktsumme ad- 
diert werden. Wenn jedoch die Rohpunktvarianzen stark unterschiedlich sind, weil 
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3. Die Interpretation von Testbatterien 



Beispiel 3.1: Berechnung des Mittelwerts aus den standardisierten Untertestwer- 
ten eines Probanden (“mittlere Profilhohe”) und seines Gesamtstandardwerts 

Zwei Untertests seien beide auf SW-Einheiten (Mittelwert 100, Streuung 10) 
standardisiert. Ihre Korrelation sei p = 0.7. Das Gesamttestergebnis soil eben- 
falls auf SW-Einheiten standardisiert werden (= Gesamtstandardwert GSW) 
Ein Proband habe im ersten Test einen Wert von SW, = 110, im zweiten Test 
einen Wert von SW, = 120. Man berechne seine mittlere Profilhohe und seinen 
GSW. 

Losung: 

Mittlere Profilhohe: (110 + 120)/2 =115 

Gesamtstandardwert: Dazu benotigen wir zunachst die SW-Summe. Sie betragt 
110 + 120 = 230. Um diesem Wert einen z-Wert zuzuordnen, miissen wir Mit- 
telwert und Varianz der SW-Summe berechnen: 

Fur den Mittelwert (Erwartungswert) erhalt man: 

E(SW! + SW 2 ) = E(SW,) + E(SW 2 ) = 100 + 100 = 200. 

Die Varianz der Summe erhalt man als Summe der Varianzen plus Kovarianzen: 
a 2 (SW, + SW 2 ) = a 2 (SWi ) + a 2 (SW 2 ) + 2 p • a(SW. ) a (SW 2 ) 

= 100 + 100 + 2 • 0.7 10 10 = 340 

und fur die Streuung: 

0(SW] + SW 2 ) = 18.4 
Damit erhalten wir fur den z-Wert: 

z= 230-200 =L6 
18.4 

Aus dem z-Wert errechnet sich dann der Gesamtstandardwert als 
GSW= 100 + lOz = 100 + 10. 1.6 = 116 

Verglichen mit der mittleren Profilhohe (115) fallt der GSW (116) extremer aus. 
Indem man denselben Rechengang mit anderen Werten von p durchfuhrt, kann 
man sich leicht iiberzeugen, dafi der Unterschied zwischen GSW und mittlerer 
Profilhohe umso deutlicher wird, je niedriger die Untertestkorrelation ist. 



z.B. Aufgabenzahl und Art der Aufgabenbewertung bei den einzelnen Untertests recht 
verschieden ist, wiirden bei einer Addition von Rohpunkten die Untertests mit groBe- 
ren Varianzen das Gesamttestergebnis entsprechend starker bestimmen. Formal be- 
trachtet: Die Varianz der Rohpunktsumme ist die Summe der Varianzen und Kova- 
rianzen. (Erwartungswert und Varianz von Summen und gewichteten Summen von 
Zufallsvariablen sind ausfuhrlich bei Stange, 1970, Kapitel 5.4, kiirzer bei Lord & 
Novick, 1968, Kapitel 4.6 behandelt). Ein Test mit groBer Rohwertvarianz hat einen 
entsprechend groBen Anted an der Varianz der Rohpunktsumme. Diese ungleiche 
Gewichtung der Untertests ware an entsprechend ungleichen Korrelationen der ein- 
zelnen Untertests zum Gesamttestwert abzulesen. Will man eine solche ungleiche 
Gewichtung vermeiden, so muB man bei ungleichen Varianzen die Untertestwerte 
zunachst standardisieren (z.B. auf SW-Einheiten), und erst diese standardisierten 
Werte werden zu einer Gesamtsumme (SW-Summe) aufaddiert. 
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Im nachsten Schritt mussen fur den Summenwert (Rohpunktsumme oder Summe 
von standardisierten Werten, z.B. SW-Summe) Mittelwert und Streuung berechnet 
werden. Sind diese Werte bekannt, so kann man auf dem bereits dargestellten Weg 
(Berechnung von z-Werten, anschlieBende Transformation auf den gewiinschten Mit- 
telwert und die gewiinschte Streuung; vgl. Kapitel 2.5) zu standardisierten Gesamt- 
testwerten iibergehen. 

Bei oberflachlicher Betrachtung konnte man meinen, der standardisierte Gesamt- 
testwert miiBte dem Durchschnitt der standardisierten Untertestwerte entsprechen. 
Das ist jedoch nicht der Fall. Der Durchschnitt der standardisierten Untertestergeb- 
nisse heiBt “mittlere Profilhohe" und ist vom standardisierten Gesamttestwert zu un- 
terscheiden. Die mittlere Profilhohe hat zwar denselben Mittelwert wie der standar- 
disierte Gesamttestwert, die Varianz hangt aber auBer von den Untertestvarianzen 
auch von den Untertestkorrelationen ab. AuBer in dem unrealistischen mathemati- 
schen Spezialfall von zu Eins korrelierenden Untertests ist die Varianz der mittleren 
Profilhohe kleiner als die Varianz des standardisierten Gesamttestwerts. Das bedeu- 
tet praktisch, daB der standardisierte Gesamttestwert immer etwas extremer (d.i. bei 
iiberdurchschnittlichen Werten hoher, bei unterdurchschnittlichen Werten niedriger) 
ausfallt als die mittlere Profilhohe. Beispiel 3.1 illustriert diesen Unterschied am Spe- 
zialfall von nur zwei Subtests. Bei nur zwei Subtests wiirde man zwar kaum von ei- 
nem “Profil” sprechen (der Intelligenz-Struktur-Test von Amthauer, 1970, z.B., der 
eine Profilauswertung vorsieht, besteht aus zehn Untertests), der begriffliche Unter- 
schied zwischen mittlerer Profilhohe und Gesamtstandardwert laBt sich aber auch mit 
zwei Subtests rechnerisch demonstrieren. Bei zehn Untertests ist der Rechengang 
analog, nur langwieriger. 



3.2 Zur Interpretation von Untertest-Differenzen 

a) Die Berechnung kritischer Differenzen 

Wenn man die standardisierten Untertestwerte eines Probanden vorliegen hat, so liegt 
es nahe, sie untereinander zu vergleichen und die Differenzen im Sinn besonderer 
Starken oder Schwachen zu interpretieren. Dabei stellt sich zunachst die Frage, ob 
eine Differenz groB genug ist, damit mit hinlanglicher Sicherheit ausgeschlossen 
werden kann, daB sie nur durch MeBfehler zustande gekommen ist. Diese Frage wird 
durch die Angabe der kritischen Differenz beantwortet: Zunachst berechnet man fur 
jeden der beiden Tests die Fehlervarianz wie in Formel [2.7] angegeben, als 

& (F) = o 2 (X)-(l - Rel) 

Wenn die MeBfehler der beiden Tests jeweils mit dem Erwartungswert Null und 
den Varianzen a 2 (Fi) und a 2 (F 2 ) unabhangig normal verteilt sind, so sind die MeB- 
fehler der Differenzen ebenfalls mit Erwartungswert Null normalverteilt und ihre 
Varianz ist: 

[3.1] o 2 (Fd. f f)= a 2 (Fi) + a 1 (F 2 ) 

Die bei einem Probanden gefundene Differenz ist bei a = 0.05 signifikant, wenn 
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sie auBerhalb des 95%-Bereichs der MeBfehlerverteilung liegt. Das ist der Fall, wenn 
sie die kritische Differenz 

[3.2] Dkrii = 1.96 0 (Foitr) 
dem Betrag nach iibersteigt. 

Bisweilen werden zur Profilinterpretation auch komplexere MaBe empfohlen. So 
z.B. empfiehlt Amthauer (1970) den Durchschnitt aus den Untertests “Analogien” und 
“Zahlenreihen” mit dem Durchschnitt aus den Untertests “Gemeinsamkeiten’' und 
“Rechenaufgaben” zu vergleichen. In anderen Fallen mag es interessant sein, die 
Differenz von einem einzelnen Subtest zum Durchschnitt aller anderen Subtests zu 
betrachten. Auch bei solchen komplexer zusammengesetzten DifferenzmaBen stellt 
sich die Frage nach der kritischen Differenz, die zu uberschreiten ist, damit eine Er- 
klarung durch MeBfehler mit hinreichender Sicherheit auszuschlieBen ist. Eine aus 
mehreren Untertests gebildete Differenz hat die allgemeine mathematische Form: 

D = ai X> + a 2 X 2 + . . . ar Xk mit lai = 0 

Dabei sind die Koeffizienten a, so zu wahlen, daB die gewiinschte Differenz. aus- 
gedruckt wird. Will man z.B. bei fiinf Untertests die Differenz zwischen den ersten 
beiden zum Durchschnitt der anderen drei Untertests bilden, so sind die a, wie folgt 
bestimmt: 

D = (X, + X 2 ) \ - ( X 3 + X4 + Xj ) • -y- 

.. 1 1 

d.n. Hi — H 2 — ^ — 34 — ^ 

Aufgrund der Unabhangigkeit der MeBfehler gilt dann fur die Fehlervarianz der 
Differenz: 

[3.3] o 2 (Fd) = ara 2 (Fi) + a 2 2 a 2 (F 2 ) + . . . a k 2 o 2 (Fk) 

im vorliegenden Beispiel also: 

<j 2 (Fd) = { o 2 (F.) + 4 o 2 (F 2 ) + * ■ a 2 (F.r) + y a 2 (F 4 ) + -±- a 2 (F 5 ) 

Die kritische Differenz ergibt sich dann, wie bereits als Formel [3.2] angegeben, 
als 

Dkri. = 1.96 o(Fd) bei a = 0.05 

Wenn die beim Probanden gefundene Differenz dem Betrag nach groBer ist als die 
kritische Differenz, so ist sie signifikant. 

Beispiel 3.2 illustriert die Berechnung von kritischen Differenzen sowohl fur den 
Fall von zwei einzelnen Tests als auch fiir den Vergleich von zwei Subtestgruppen. 



b) Die Haufigkeitsverteilung von Differenzen 

Wenn man bei einem Probanden eine signifikante Differenz gefunden hat, so kann man 
weiter fragen, wie haufig eine solche oder groBere Differenz in der Population vor- 
kommt. Diese Frage interessiert, wenn man wissen will, ob es sich vielleicht um eine 
ungewohnlich groBe Differenz handelt, der besondere diagnostische Bedeutung zu- 
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Beispiel 3.2: Die Berechnung von Kritischen Differenzen 

1) Kritische Differenz zwischen zwei Untertests: Der Intelligenz-Struktur-Test 
1ST 70 von Amthauer (1970) enthalt u.a. die Untertests RA (eingekleidete Re- 
chenaufgaben) und ZR (Zahlenreihen Fortsetzen). 

Ein Schuler hat bei RA einen SW=120 und bei ZR einen SW=105 erreicht. 1st 
der Unterschied groB genug, daB mit 95% Sicherheit ausgeschlossen werden 
kann, daB er nur durch MeBfehler zustande gekommen ist? 

Losung: Zunachst sind die Fehlervarianzen der beiden Tests nach Formel [2.7] 
zu bestimmen. Dazu benotigt man die Varianzen und Reliabilitaten der beiden 
Untertests. Die Varianz von Standardwerten (SW) ist definitionsgemaB 100. Die 
Reliabilitaten entnimmt man der Handanweisung: Bei Testwiederholung nach 
einem Jahr mit einer Parallelform wurde fur RA eine Reliabilitat von .86, fur 
ZR eine Reliabilitat von .75 gefunden. Daraus ergibt sich: 
o 2 (Fra) = 100(1 -.86)= 14 und 
o 2 (Fzr) = 100( 1 - .75) = 25 

Danach errech net man die kritische Differenz nach Formel [3.2]: 

Dk > 1 1 = 1.96 Vl4 + 25 = 12.2 

Die bei unserem Probanden gefundene Differenz betragt 120 - 105 = 15. Damit 
ist die kritische Differenz dem Betrag nach uberschritten und die gefundene 
Differenz ist bei CX = .05 signifikant. Das heiBt, eine so groBe oder noch groBere 
Differenz kommt bei gleichen wahren Werten meBfehlerbedingt in weniger als 
5% der Falle zustande. Die Differenz kann interpretiert werden. 

2) Berechnen der kritischen Differenz fur den Vergleich von Subtestgruppen: Ein 
Schuler schneidet im Mathematikunterricht bei den geometrischen Aufgaben re- 
gelmaBig schlechter ab als bei den rechnerischen. Von daher wird erwartet, daB 
er im Intelligenztest bei Tests des raumlichen Vorstellens schlechter abschnei- 
det als bei numerisch-mathematischen Aufgabenstellungen. 

Der IST 70 enthalt auBer den o.g. zwei rechnerischen Tests RA und ZR mit den Re- 
liabilitaten .86 und .75 auch zwei Tests zum raumlichen Vorstellen, namlich 
FA = Figurenauswahl und WU = Wiirfelaufgaben mit den Reliabilitaten .69 und .65. 
Der Schuler hat folgende Standardwerte (SW) erzielt: 

RA: 120, ZR: 105, FA: 90, Wu: 92 

Ist der Unterschied zwischen den rechnerischen und den raumlichen Tests groB 
genug, damit mit 95%iger Sicherheit ausgeschlossen werden kann, daB er nur 
durch MeBfehler zustande gekommen ist ? 

Losung: Sein Durchschnitt aus den beiden rechnerischen Test ist demnach 
(120 + 105)/2 = 112.5, sein Durchschnitt aus den beiden raumlichen Tests (90 + 
92)/2 = 91. Sein Durchschnitt fur die rechnerischen Tests liegt also um 21.5 Ein- 
heiten hoher als fiir die raumlichen Tests (gefundene Differenz). 

Um die kritische Differenz zu berechnen, berechnet man zunachst die Fehler- 
varianzen fiir alle Tests nach Formel [2.7]: 
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RA ZR FA Wii 

a 2 (F) 14 25 31 35 

Das DifferenzmaB, fur das die Fehlervarianz bestimmt werden soil, lautet: 

D = (RA + ZR)/2 - (FA + Wii)/2 = .5 RA + .5 ZR -.5FA -.5WU 

Die Fehlervarianz fur das DifferenzmaB ergibt sich dann nach Formel [3.3] als 

CT 2 (Fd) = ,5 2 • 14 + ,5 2 • 25 + (-.5) 2 • 31 + (-.5) 2 ■ 35 = 26.25 
o(Fd) = 5.12 

Daraus erhalt man die kritischen Differenz als fur a = .05 
Dk r i t — 1.96 5.12= 10.04 

Die beim Probanden gefundene Differenz von 21.5 ist dem Betrag nach groBer 
als die kritische Differenz und damit bei a = .05 signifikant. 

Anmerkung: Man sieht, daB trotz der relativ niedrigen Reliabilitaten der beiden 
raumlichen Tests die kritische Differenz fur den Vergleich der Mittelwerte aus 
den beiden Subtestgruppen sogar etwas niedriger ausfallt als die kritische Dif- 
ferenz zum Vergleich der beiden reliableren Einzeltests RA und ZR. Dieses Er- 
gebnis ist typisch und kommt dadurch zustande, daB beim Mitteln der Testwer- 
te auch die MeBfehler gemittelt werden, wodurch die Fehlervarianz des 
Mittelwerts reduziert wird. 



kommt. Hat man es mit nur zwei gleich standardisierten bivariat normalverteilten 
Subtests zu tun, so laBt sich die Verteilung der Differenzen leicht errechnen. Die Dif- 
ferenzen sind wieder normalverteilt. Der Mittelwert der Verteilung ist Null, die Va- 
rianz ergibt sich als 

[3.4] a 2 (D) = a 2 (X,) + o 1 (X 2 ) - 2 p(X, X 2 )c(X>) a(X 2 ) 

Kennt man somit Mittelwert und Varianz der Differenzen- Verteilung, so kann man 
zu jeder beliebigen Differenz D den zugehorigen z-Wert berechnen und dann mithil- 
fe der Tabelle fur die Standard-Normal verteilung feststellen, wie haufig dieser Wert 
ilberschritten wird. Bei DifferenzmaBen, die aus mehr als zwei Subtests bestehen, ist 
analog vorzugehen. Die Berechnung der Varianz ist allerdings langwieriger, weil sie 
von den Kovarianzen aller beteiligten Untertests untereinander abhangt. Beispiel 3.3 
illustriert den Rechenvorgang fiir den Fall von zwei Subtests. 

Ist die Normalverteilungsvoraussetzung nicht gegeben, so bleiben obige Aussagen 
liber Mittelwert und Varianz der Differenzenverteilung giiltig: Bei gleich standardi- 
sierten ‘Fests ist der Mittelwert der Differenzen Null und die Varianz der Differenzen 
ergibt sich nach Formel [3.4]. Die genaue Haufigkeitsverteilung der Differenzen kann 
aber nicht iiber Normalverteilungstabellen bestimmt werden, sondern muB empirisch 
ermittelt werden (Berechnen der Differenz fiir jeden Probanden aus einer reprasenta- 
tiven Stichprobe, Aufstellen der Haufigkeitsverteilung). 

Wenn die Werte jedes einzelnen Subtests normal verteilt sind, so folgt daraus zwar 
mathematisch gesehen noch nicht zwingend die bivariate Normalverteilung und da- 
mit die Normalverteilung der Differenzen, in der Praxis wird man aber bei normal 
verteilten Subtests auch mit einer Normalverteilung der Differenzen rechnen konnen. 
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Beispiel 3.3: Haufigkeit von Differenzen in der Population 

Die in Beispiel 3.1 genannten Tests RA und ZR korrelieren zu .58. Ein Proband 
hat im Test RA um 15 SW-Einheiten besser abgeschnitten als in ZR. 1st eine sol- 
che Differenz ungewohnlich groB? 

Losung: Um diese Frage zu beantworten, berechnen wir die Haufigkeit, mit der 
eine SW-Differenz von 15 oder mehr SW-Einheiten in der Population vorkommt. 
Nimmt man an, daB RA und ZR fur die entsprechende Altersstufe bivariat nor- 
malverteilt sind, so ist die Differenz ebenfalls normalverteilt. Der Mittelwert die- 
ser Normal verteilung ist Null, die Varianz erhalt man nach Formel [3.4] als 

Einer Differenz von D = 15 entspricht demnach folgender z-Wert einer Standard- 
normalverteilung: 

15-0 

z= 9.16 = 1-64 

Einer Tabelle fur die Standardnormal verteilung entnimmt man, daB auBerhalb des 
Bereichs + 1.64 noch 11% der Falle liegen. D.h.: In der Population besteht bei 
11% der Probanden eine Differenz zwischen RA und ZR, die 15 SW-Einheiten 
oder noch mehr betragt. Die bei dem Probanden gefundene Differenz ist also nicht 
extrem selten. 



c) Abweichungen von Regressions-Schatzwerten 

Statt zu fragen, ob eine Differenz hauftg oder selten vorkommt, kann man bei Vorlie- 
gen entsprechender Hypothesen auch gezieltere Fragen stellen. Wenn z.B. bekannt ist, 
daB sich eine organische Hirnschadigung speziell auf einen Test X 2 auswirkt, nicht 
aber auf X] , kann man gezielt fragen, ob der Proband in X 2 eine signifikant schlech- 
tere Leistung erbringt, als aufgrund seiner Leistung in X! zu erwarten ware. Dazu 
nimmt man eine Regressionsschatzung von X 2 aus X! vor und betrachtet die Abwei- 
chung von diesem Schatzwert. Bivariate Normalverteilung vorausgesetzt, ist die Re- 
gression von X 2 auf X! linear und die Abweichungen von der Regression verteilen sich 
wieder normal mit dem Mittelwert Null und der Varianz 

[3.5] a 2 (Xz - XT ) = a 2 (Xz) • (1 - p 2 (X, Xz )) 

X* 2 = geschatzter Wert fur X 2 (vgl. Formel [2.10]) 

Hat man fiir den Probanden die Regressionschatzung von X 2 aus X! vorgenommen 
und die Abweichung X 2 - X* 2 bestimmt, so kann man berechnen, wie hauftg eine sol- 
che oder groBere Abweichung in der Population der Gesunden vorkommt. Ist sie sehr 
selten, so wird man ihr entsprechende diagnostische Relevanz beimessen. Der Ein- 
fachheit wegen war bisher angenommen worden, daB X 2 aus nur einem anderen Test 
Xi geschatzt wird. X] kann aber auch ein komplexeres MaB, z.B. ein Gesamttestwert 
sein. Das Argument lauft dann analog. 

Beispiel 3.4 illustriert den Rechenvorgang bei der Regressionschatzung und der 
Berechnung der Abweichung des Probanden von dieser Regressionsschatzung. 
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Beispiel 3.4: Berechnung der Abweichung vom Regressions-Schatzwert 

Ein Wortschatztest (X , ) und ein Test fur kurzfristiges Behalten (X 2 ) sind bei Ge- 
sunden auf SW-Einheiten normiert und korrelieren zu 0.50. Bei einem Proban- 
den wird vermutet, daB das kurzfristige Behalten krankheitsbedingt gestort ist. Der 
Proband hat in Test X! einen SW von 120, in X 2 einen SW von 90 erreicht. 

Wie hauftg kommt es in der Population der Gesunden vor, daB jemand, der in X! 
einen SW von 120 hat, in X 2 nur 90 oder weniger hat? 

Losung: Wenn die Tests X! und X 2 bei Gesunden bivariat normalverteilt sind, so 
kann der Durchschnitt von X 2 fur Probanden mit X, = 120 mittels linearer Regression 
berechnet werden. Die Regressionsgleichung zur Schatzung von X 2 aus X! (vgl. 
Formel [2.10]) lautet: 

X *2 = p Xi + a 

mit P = p(Xi X 2 ) a(X 2 )/o(Xi ) und a = E(X 2 ) - pE(Xi ) 

Fiir das vorliegende Beispiel ergibt sich also: 

P = 0.5 • 10/10 = 0.5 und a = 100 - 0.5 100 = 50 
X*2 = 0.5 X. + 50 = 0.5 ■ 120 + 50= 110 
Probanden mit X[ = 120 erreichen also in X 2 im Durchschnitt einen Wert von 110. 
Die Varianz um diesen Durchschnitt betragt nach Formel [3.5]: 
o 2 (X 2 - X* 2 ) = 100(1 - 0.5 2 ) = 75; a (Xi - X *2 ) = 8.7 

Das heiBt: Betrachtet man nur gesunde Probanden, die in X 2 = 120 haben, so ver- 
teilen sich deren Werte in X 2 normal um den Mittelwert 1 10 mit einer Streuung 
von 8.7. Unser Proband hat einen Wert von X 2 = 90. Dem entspricht folgender z- 
Wert: 

z = (90- 110)/ 8.7 = -2.29 

Einer Tabelle fiir die Standardnormalverteilung entnimmt man, daB dieser 
z-Wert nur in 1.1% der Falle unterschritten wird. D.h.: Unter gesunden Proban- 
den mit einem Standardwert von 120 in Test X! haben nur 1.1% in Test X 2 ei- 
nen Standardwert von 90 oder weniger. Der vorliegende Befund ist also bei Ge- 
sunden sehr selten, was die Vermutung einer krankheitsbedingten Storung stiitzt. 
Wenn entsprechende Angaben auch fiir die Population der Kranken zur Verfii- 
gung stehen, kann die Rechnung analog auch fiir diese Population durchgefiihrt 
werden. 



Zur Wahl eines Entscheidungskriteriums bei der Interpretation von Differenzen 

Da man in der psychologischen Statistik gewohnt ist, das Signiftkanzniveau auf 
& = .05 festzulegen, liegt es nahe, eine entsprechende Forderung auch fiir die indivi- 
duelle Diagnostik zu erheben, also die Nullhypothese gleicher wahrer Werte erst zu 
verwerfen, wenn die kritische Differenz fiir das 5%-Niveau iiberschritten ist. Zieht 
man zusatzlich in Betracht, daB bei einer Vielzahl von Untertests jeder mit jedem 
verglichen wird, also eine Vielzahl von Signifikanztests durchgefiihrt wird, so liegt 
es nahe, noch strengere Anforderungen zu stellen, um das Gesamtrisiko, einen oder 
mehrere Alpha-Fehler zu machen, nicht iiber 5% ansteigen zu lassen. Eine solche 
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Strategic wiirde allerdings dazu fiihren, da6 nur sehr groBe Differenzen interpretiert 
werden und bei einem GroBteil der Probanden die Nullhypothese beibehalten wird. 
Damit wiirde bei der groBen Zahl von Personen, bei denen sich die wahren Werte der 
Subtests unterscheiden (bei denen also die Altemativhypothese zutrifft), dieser Un- 
terschied nicht diagnostiziert. Da auch das Ubersehen von Unterschieden fur die dia- 
gnostische Praxis eine Fehlentscheidung bedeutet, muB eine Entscheidungsstrategie 
gewahlt werden, die beide Fehlerrisiken angemessen beriicksichtigt. Im folgenden 
sollen anhand eines Zahlenbeispiels die Fehlerraten fur verschiedene Entscheidungs- 
Strategien berechnet werden: Bei Strategic A soil jede beobachtete Differenz interpre- 
tiert werden, bei Strategie B nur Differenzen, die groBer sind als eine halbe Streuungs- 
einheit, bei Strategie C nur Differenzen, die groBer sind als die bei a = .05 berechnete 
kritische Differenz. 

Wir nehmen an, die Tests X! und X 2 seien bivariat normalverteilt, die MeBfehler- 
verteilungen normal und homoskedastisch. Beide Tests sollen auf SW-Einheiten (Mit- 
telwert = 100, Streuung =10) standardisiert sein, und beide sollen eine Reliabilitat von 
0.9 haben. Die Korrelation der beiden Tests betrage -(X, X 2 ) = .50. 

Die Verteilung der beobachteten Differenzen X! - X 2 und der wahren Differenzen 
T, - T 2 ist dann ebenfalls bivariat normal. Wir berechnen zunachst die Korrelation der 
beiden Variablen X! - X 2 und T, - T 2 , um dann mithilfe von Tabellen fur die bivariate 
Normalverteilung die Fehlerraten zu ermitteln. Als Fehler bewerten wir alle Fade, bei 
denen wir die beobachtete Differenz gegeniiber dem Probanden interpretiert haben, 
also aus X! >X 2 auf Ti >T 2 geschlossen haben, wohingegen T, <T 2 richtig ist, d.h. in 
Wahrheit kein Unterschied besteht oder der Unterschied in die entgegengesetzte Rich- 
tung geht (analog: aus X! >X 2 auf T, >T 2 geschlossen, wahrend T]<T 2 richtig ist). 

Um die Korrelation zwischen den beobachteten und den wahren Differenzen zu 
bestimmen, benutzen wir einen Satz aus der Testtheorie (er ergibt sich als Spezialfall 
aus Formel 2.12a, wenn man dort fur Y den Testwert X einsetzt), wonach die Korre- 
lation zwischen beobachteten und wahren Werten gleich der Wurzel aus der Reliabi- 
litat ist. Bezogen auf einen einzelnen Test X lautet der Satz: 

p(X Tx ) = VRel(X), 

angewendet auf Differenzen ergibt sich: 

p(X, - Xj , T, - T* ) = VRel(X, -X 2 ) 

Um die Reliabilitat der Differenz zu bestimmen (Anted der wahren Varianz an der 
beobachteten Varianz), berechnen wir zunachst die beobachtete Varianz, dann die 
Fehlervarianz und schlieBlich die wahre Varianz als Differenz zwischen beobachte- 
ter und wahrer Varianz: 

a 2 (X, - Xi ) = & (X, ) + a 2 (X 2 ) - 2 p 1 2 a(X, )a(X 2 ) 

= 100+ 100 - 2 0.5- 10- 10= 100 
a 2 (F. ) = a 2 (X, )(1 - Rel) = 100(1 - .9) = 10; analog: a 2 (F 2 ) = 10 
und ct 2 (F, - Fi ) = a 2 (F, ) + a 2 (F 2 ) = 10 + 10 = 20 
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a 2 (Ti - T 2 ) = 100 - 20 = 80 
Rel(Xi -X 2 ) = 80/100 = .80 



Damit erhalten wir fur die Korrelation zwischen beobachteten und wahren Diffe- 
renzen: 



p(X, -X 2 ,Ti -T 2 ) = VRel(Xi -X 2 ) = V.80 = .9 



Nachdem wir die Korrelation berechnet haben, konnen wir nun die von Taylor & 
Russell (1939) publizierten Tabellen benutzen, um fur die drei in Betracht gezoge- 
nen Selektionsstrategien die Fehlerraten zu bestimmen. 

Taylor & Russell (1939) stellten im Zusammenhang mit der Frage nach der Niitzlichkeit 
des Testeinsatzes in der betrieblichen Personalselektion erstmals Uberlegungen zu den Fehler- 
raten verschiedener Selektionsstrategien an: Sie nahmen an, daB Testwerte und Berufserfolg 
bivariat normalverteilt sind. Ab einem bestimmten kritischen Kriteriumswert auf der Skala des 
Berufserfolgs gilt der Bewerber als “erfolgreich”, darunter als “nicht erfolgreich”. Der Anted 
der Erfolgreichen in der Grundgesamtheit der Bewerber wird als Grundquote bezeichnet. 
Wttrde man per Zufall auswahlen, so wiirde sich ein der Grundquote entsprechender Anteil 
als erfolgreich erweisen. Die Selektion wird nun aber mit Hilfe des Tests durchgefuhrt: Es wer- 
den alle Bewerber, die einen bestimmten kritischen Testwert uberschritten haben, aufgenom- 
men. Der Anteil der Aufgenommenen an den Bewerbern ist die Selektionsquote. Sind Grund- 
quote, Selektionsquote und Test-Kriteriums-Korrelation bekannt, so kann man aus den 
Taylor-Russell-Tafeln die Trefferquote entnehmen. Darunter versteht man den Anteil der Er- 
folgreichen unter den Aufgenommenen. Die Niitzlichkeit des Testeinsatzes wird dann danach 
beurteilt, wie weit die Trefferquote (Selektion mit Hilfe des Tests) liber der Grundquote (Se- 
lektion nach Zufall) liegt. Weiterfiihrende Uberlegungen zur Nutzenmaximierung findet man 
bei Cronbach & Gleser (1965). Kurzdarstellungen bei Wottawa & Hossiep (1987) und bei 
Noack & Petermann (1988). 

Zu Strategic A (jede beobachtete Differenz wird interpretiert): Um die Taylor-Rus- 
sell-Tafeln zu benutzen, braucht man die Korrelation zwischen dem Kriterium (in 
unserem Anwendungsfall die wahre Differenz) und dem Test (allgemeiner gesagt: der 
korrelierenden Variablen, nach der die Selektion durchgefuhrt wird; in unserem Fall 
ist das die beobachtete Differenz). Die Korrelation betragt also in unserem Fall .9. 
Weiter braucht man die Grundquote; In unserem Fall ist der “kritische Kriteriums- 
wert’' T, - T 2 = 0. Er wird von 50% der Probanden uberschritten. Die Grundquote ist 
demnach 50%. Weiter braucht man die Selektionsquote; Der Anteil der Probanden mit 
X! - X 2 > 0 ist 50% (fur diese Probanden machen wir die “Vorhersage” T, - T 2 > 0). 
Die Selektionsquote ist demnach 50%. Mit diesen Angaben kann man nun den Tay- 
lor- Russell-Tafeln die Trefferquote entnehmen: Sie betragt 86%. Das heiBt: 86% der 
“ausgewahlten” Probanden (der Probanden mit X, > X 2 ) iiberschreiten den kritischen 
Kriteriumswert (haben wahre Werte T > T 2 ), 14% erreichen den kritischen Kriteri- 
umswert nicht (fiir sie gilt: T, < T 2 ). Da sich die Uberlegung vollig analog fur eine 
Selektion nach X, - X 2 > 0 und den kritischen Kriteriumswert T, - T 2 = 0 anstellen laBt, 
kann man zusammenfassend feststellen, daB Strategic A (jede Differenz wird inter- 
pretiert) bei einer Reliabilitat der Differenz von .8 zu einer Fehlerrate von 14% firhrt. 
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Zu Strategic B : Nur Differenzen, die groBer sind als eine halbe Streuungseinheit (= 
5 SW-Einheiten), werden interpretiert: Korrelation und Grundquote sind gleich 
wie bei Strategic A. Die Selektionsquote ist niedriger, da nur iiber Probanden mit 
X! - X 2 > 5 eine Aussage gemacht wird. Der Anted der Probanden mit X, - X 2 > 5 be- 
tragt 31% (zum Rechengang siehe Beispiel 3.3). Den Taylor-Russell-Tafeln entnimmt 
man nun bei einer Selektionsquote von 31% eine Trefferquote von 97% und eine 
Fehlerrate von 3%. 

Betrachtet man nun alle Probanden mit X! > X 2 (sie machen 50% der Grundge- 



samtheit aus), so verteilen sie sich wie folgt: 

Keine Diagnose erstellt, wed Xj - X 2 < 5 SW-Einheiten 19% 

Diagnose “Tj > T 2 “ erstellt 31% 

davon richtige Diagnosen 30% 

davon falsche Diagnosen 1% 

Eine analoge Rechnung laBt sich fur die Probanden mit X! > X 2 erstellen. FaBt man 
beide Gruppen zusammen, so erhalt man folgendes Bild: 

Keine Diagnose erstellt, wed | Xj - X 2 1 < 5 SW-Einheiten 38% 

Richtige Diagnosen 60% 

Falsche Diagnosen 2% 

Anted der richtigen Diagnosen an den erstellten 97% 



Zu Strategie C: Nur Differenzen, die die bei a= .05 errechnete kritische Differenz 
uberschreiten, werden interpretiert: Die kritische Differenz bei a = .05 betragt 
Dfci, = 8.8 (zum Rechengang siehe Beispiel 3.1). Der Anted der Probanden mit 
X ; - X 2 > 8.8 betragt 19% (Rechengang siehe Beispiel 3.3). Den Taylor-Russell-Tafeln 
entnimmt man bei einer Selektionsquote von nunmehr 19% eine Trefferquote von 



99%. Die Probanden mit X! > X 2 verteilen sich damit wie folgt auf die Entscheidun- 
gen: 

Keine Diagnose erstellt, wed X ; - X 2 < 8.8 SW-Einheiten 31% 

Diagnose "T > T. “ erstellt 19% 

davon richtige Diagnosen 18.8% 

davon falsche Diagnosen 0.2% 

Die Rechnung fur Probanden mit X! > X 2 ist wieder analog durchzufuhren. Zusam- 
men gefaBt iiber alle Probanden ergibt sich folgende Verteilung der Entscheidungen: 

Keine Diagnose erstellt, wed |X] - X 2 1 <8 . 8 62% 

Richtige Diagnosen 37.6% 

Falsche Diagnosen 0.4% 

Anted der richtigen Diagnosen an den erstellten 99% 



Vergleicht man nun die drei Diagnose-Strategien A, B und C, so sieht man, wie mit 
zunehmender Enthaltung bei der Diagnosestellung der Anted der richtigen Diagno- 
sen an den erstellten steigt. Aber selbst Strategie A, bei der jede Differenz interpre- 
tiert wird, hat keine extrem hohen Fehlerraten. Wenn man vermutet, daB die diagno- 
stische Praxis in etwa Strategie B folgt, so erscheint das durchaus rational: Der Anted 
der erstellten Diagnosen ist relativ hoch, die Fehlerrate bei den Diagnosen noch ak- 
zeptabel. 

Die genauen Zahlenwerte hangen natiirlich von den in diesem Beispiel getroffe- 
nen Annahmen iiber die Reliabilitaten der beiden Tests und die Korrelation zwischen 
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den Tests ab. Die hier gemachten Annahmen sind aber nicht unrealistisch. Bei hohe- 
ren Reliabilitaten und niedrigerer Korrelation zwischen den Tests fallen die Ergeb- 
nisse noch giinstiger aus. 



3.3 Zur Interpretation von Gruppenprofilen als Anforderungsprofile 

Bei umfassenden Testbatterien, die verschiedene Intelligenz- oder Leistungsbereiche 
getrennt erfassen (z.B. 1ST 70 von Amthauer, 1970; LPS von Horn, 1983), werden 
als Interpretationshilfe u.a. die Durchschnittsprofile bestimmter Berufsgruppen, Stu- 
dienrichtungen usw. angeboten. Fiir den Praktiker liegt es nun nahe, diese Durch- 
schnittsprofile als Anforderungsprofile zu interpretieren: Wer Arzt werden will, soll- 
te in alien Untertests die Durchschnittswerte der Arzte erreichen oder iiberbieten. 

Gegen so einfache SchluBfolgerungen sind jedoch Bedenken verschiedener Art 
anzumelden: Mittelwerte allein sagen noch nichts iiber die Relevanz des Untertests 
fiir den Berufserfolg aus. Das wird leicht erkennbar, wenn man ein offensichtlich ir- 
relevantes Merkmal betrachtet: Wiirde man bei Arzten die KorpergroBe als “Unter- 
test” miterheben, so wiirde man vermutlich zu dem Ergebnis kommen, daB sie unge- 
fahr dem Durchschnitt der Bevolkerung entsprechen, also auf einer SW-Skala einen 
Mittelwert von etwa 100 haben. Das bedeutet aber nicht, daB korperlich Kleine nicht 
gute Arzte werden konnten. Der Durchschnittswert ist hier kein Anforderungswert. 
Um die Relevanz eines Untertests fiir den Berufserfolg zu belegen, sind weitere An- 
gaben notig: z.B. Korrelationen des Tests mit Kriterien des Berufserfolgs, Angaben 
iiber Unterschiede zwischen erfolgreichen und erfolglosen Teilnehmern an einer Aus- 
bildung, usw. Solche Daten sind freilich schwer zu erheben. Wo sie fehlen, konnte 
schon die Angabe der Varianz zusatzlich zum Mittelwert hilfreich sein; Wenn die 
Varianz bei erfolgreichen Vertretern des Berufs groB ist, ist zu vermuten, daB diesen 
Merkmal fiir den Berufserfolg nicht allzu kritisch ist. 

Auch wenn man die Relevanz eines Untertests fiir einen bestimmten Beruf als ge- 
geben unterstellt, bleibt die Frage offen, ab welchem Testwert man einen Probanden 
als geeignet betrachten soil. Wenn man fordert, daB der Durchschnitt der erfolgrei- 
chen Berufsvertreter erreicht werden muB, so bedeutet das, daB man nach dem Test 
rund die Halfte der faktisch erfolgreichen Berufsvertreter ausscheiden wiirde (bei 
symmetrischen Verteilungen liegen genau 50% iiber dem arithmetischen Mittel, bei 
schiefen Verteilungen sind es je nach Art der Schiefe mehr oder weniger als 50%). 
Ein solches Kriterium erscheint als zu hoch angesetzt. Bei der Interpretation der Eig- 
nungs-Untersuchungs-Batterie (EUB nach Engelbrecht, 1975; 1978) z.B., die an den 
Arbeitsamtern zur Berufsberatung verwendet wird, wird ein Proband als geeignet be- 
trachtet, wenn er in den relevanten Untertests einen berufsbezogenen Stanine-Wert 
von mindestens 2 hat, also nicht zu den untersten 4% der Berufsgruppe gehort. Eine 
empirisch begriindete Festlegung wiirde voraussetzen, daB man Testwerte erfolgrei- 
cher und nicht erfolgreicher Berufsvertreter zur Verfiigung hatte. 

Der Moglichkeit, aus Durchschnittsprofilen von Berufsvertretem Anforderungs- 
profile fiir Berufsanwarter zu gewinnen, diirften - abgesehen von den Schwierigkei- 
ten der Datenerhebung - auch grundsatzlich Grenzen gesetzt sein; Sowohl die beruf- 
lichen Anforderungen selbst als auch die Selektionsbedingungen, die den Zugang zu 
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den Berufen regeln, sind zeitlichen Veranderungen unterworfen. Bei attraktiven Be- 
rufen und knappem Angebot an Ausbildungsplatzen wird eine starke Selektion statt- 
finden, bei einem Uberhang an Platzen und Nachwuchsmangel wird die Selektion 
entsprechend gering sein. Die Auswahlkriterien der Ausbildungsstatten (Betriebe, 
Schulen usw.) werden sich nur zum Teil mit den berufliche Anforderungen decken. 
Empirisch gefundene Unterschiede zwischen Berufsgruppen spiegeln diese Selekti- 
onsvorgange wider, in denen sich berufliche Anforderungen, Auswirkungen der Ar- 
beitsmarktlage, Auswirkungen von richtigen und irrigen Meinungen iiber Berufe usw. 
mischen. Allzu subtile Vergleiche zwischen dem Profil eines einzelnen Probanden und 
Berufsgruppenprofilen als Anforderungsprofilen erscheinen von daher als nicht an- 
gebracht. Die Gruppenprofile konnen jedoch als grobe Orientierungsmarken betrach- 
tet werden und als solche durchaus hilfreich sein. 

Kristof (1958) bietet Formeln an, mit denen man priifen kann, ob iiberhaupt ein 
Profil vorliegt. Bezogen auf einen einzelnen Probanden lautet die Nullhypothese: Die 
wahren Werte des Probanden sind in alien k Untertests gleich, die Unterschiede zwi- 
schen den beobachteten Testwerten sind nur durch MeBfehler zustande gekommen. 
Kritisch laBt sich einwenden, daB eine solche Nullhypothese extrem unplausibel ist 
und von daher eine statistische Uberpriifung iiberflussig erscheint. 

Analoge Formeln werden von Kristof (1958) auch fur die zufallskritische Priifung 
von Gruppenprofilen vorgeschlagen. Hier ist zweierlei anzumerken: Zum einen ist 
auch hier die Gleichheit der durchschnittlichen wahren Werte in alien k Untertests eine 
sehr unplausible Hypothese. Zum anderen ist anzumerken, daB fur die meisten prak- 
tischen Fragestellungen neben dem MeBfehler bei der Messung der einzelnen Proban- 
den auch der Stichprobenfehler bei der Ziehung der Probanden aus der Grundgesamt- 
heit von Belang ist. Wird nur die zufallskritische Absicherung gegen MeBfehler 
vorgenommen, so wird fur die spezielle vorliegende Stichprobe von n Personen die 
Nullhypothese der Gleichheit der durchschnittlichen wahren Werte gepriift. Wenn nun 
aber z.B. das Berufsprofil der Backer zur Diskussion steht, so sollte die Nullhypo- 
these (li = |I 2 = . . flk gepriift werden, also die Gleichheit der Mittelwerte in der Po- 
pulation der Backer. Dazu sind entsprechende multivariate Verfahren (z.B. Hotellings 
T , siehe Anderson 1958, Kapitel 5.3.5) einzusetzen. 

Ahnliches gilt, wenn zwei Gruppenprofile, z.B. 50 Backer versus 50 Maurer ver- 
glichen werden. Auch hier interessiert nicht die Frage, ob sich die durchschnittlichen 
wahren Werte dieser speziellen 50 Backer von denen jener speziellen 50 Maurer un- 
terscheiden, sondern ob die Mittelwerte der beiden Grundgesamtheiten verschieden 
sind. Nur die erste Frage ist mit den Kristof-Formeln zu bearbeiten, die zweite, die 
Stichprobenfehler mit einbezieht, ist mit gangigen statistischen Verfahren fur den 
multivariaten Mittelwertsvergleich (z.B. MANOVA) zu behandeln. 

Eine weitere gelaufige Fragestellung bezieht sich auf den Vergleich eines Einzel- 
profils mit einem Gruppenprofil. Auch hier erscheint die Nullhypothese, daB die 
wahren Werte des Einzelprofils den wahren Werten des Gruppenprofils genau glei- 
chen (Differenz Null auf alien Skalen), so unwahrscheinlich, daB es keinen vemiinf- 
tigen Grund gibt, sie iiberhaupt aufzustellen. Sinnvoller ist die Frage, wie der Abstand 
(oder umgekehrt ausgedriickt: die Ahnlichkeit) des Einzelprofils zum Gruppenprofil 
quantifiziert werden soli. Diese Frage stellt sich z.B., wenn man in der Berufsbera- 
tung die Ahnlichkeit des Profils eines Probanden zu verschiedenen Berufsgruppen- 
profilen ausdriicken will. Solche Fragen lassen sich mithilfe von Diskriminanzanaly- 
sen (siehe Kapitel 4.1) behandeln. 




76 



3. Die Interpretation von Testbatterien 



Zusammenfassung 

(1) Um einen Gesamtstandardwert zu erhalten, wird zunachst eine Punktsumme 
(Rohpunktsumme oder Summe standardisierter Untertestwerte) gebildet. Diese wird 
wiederum standardisiert. Dieser Gesamtstandardwert ist nicht mit der mittleren Pro- 
filhohe (= Durchschnitt aus den Untertest-Standardwerten) identisch, da letztere eine 
kleinere Varianz hat. 

(2) Die Frage, ob zwei Untertestleistungen eines Probanden signifikant voneinan- 
der verschieden sind (Absicherung gegen eine Erklarung aus MeBfehlern), ist mithil- 
fe der “kritischen Differenz’' zu beantworten. Davon zu unterscheiden ist die Frage, 
wie haufig oder selten eine Differenz in einer Population iiberschritten wird, ob sie 
also in diesem Sinn '‘auffallig” ist. Diese Frage ist durch die Berechnung der Haufig- 
keitsverteilung der Differenzen zu beantworten. Eine weitere, davon zu unterschei- 
dende Frage ist, ob ein bestimmter Untertest im Vergleich zu den iibrigen Untertests 
erwartungswidrig niedrig (oder auch erwartungswidrig hoch) ausfallt. Diese Frage 
kann mithilfe einer Regressionsschatzung bearbeitet werden. 

Bei der Frage, ab wann man den Unterschied zwischen zwei Untertestleistungen 
interpretieren soli, sind zwei Fehlerarten zu beriicksichtigen: (1) Interpretieren von 
Unterschieden, die nur durch MeBfehler zustande gekommen sind, wahrend sich die 
wahren Werte nicht unterscheiden oder der Unterschied sogar in die entgegengesetz- 
te Richtung geht, und (2) Nicht-Diagnostizieren von vorhandenen Unterschieden. Die 
beiden Fehlerraten konnen fur verschiedene Entscheidungsstrategien berechnet wer- 
den. 

(3) Interpretiert man Durchschnittprofile, z.B. die Profile verschiedener Berufs- 
gruppen, als Anforderungsprofile, so lauft man Gefahr, historische Zufalligkeiten des 
gesellschaftlichen Ist-Zustandes mit beruflichen Anforderungen zu vermengen. Uber 
die Erhebung von Gruppenprofilen hinausgehend, sollte die berufsspezifische Rele- 
vanz der einzelnen Untertests und die Festlegung kritischer Anforderungsmarken em- 
pirisch begriindet werden. 



Einfuhrende Literatur: 

Lienert, G.A. (1991). Testaufhau und Testancilyse (5.Aufl.). Weinheim: Psychologie 
Verlags-Union. 



Weiterfuhrende Literatur: 

Huber, H.P. (1973). Psychometrische Einzelfalldiagnostik. Weinheim: Beltz. 

Abel, J. (1989). Profilanalysen in der Schulforschung. Zeitschrift fur Pddagogische 
Psychologie, 3, 27 - 34. 
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Multivariate Verfahren im Dienst der Testtheorie 



4.1 Verfahren zur Optimierung der Kriteriumsvorhersage: 
Multiple Regression und Diskriminanzanalyse 



1 . Wie kann man mehrere Tests zu einem Gesamtwert zusammenfassen, um eine 
moglichst genaue Kriteriumsvorhersage zu bekommen? 

2. Wie genau failt these Vorhersage aus? Welche Tests konnen am ehesten weg- 
gelassen werden? 



Vorstrukturierende Lesehilfe 

Die meisten fur die Praxis relevanten Kriterien, z.B. Schulerfolg oder Ausbildungs- 
erfolg, hangen von einer Vielzahl unterschiedlicher Bedingungen ab, wie Fahigkei- 
ten, Kenntnissen, aber auch Interessen, Einstellungen und Erwartungen. Das Unter- 
fangen, solch ein Kriterium mit einem einzelnen Test vorherzusagen, laBt von vorn- 
herein nur begrenzten Erfolg erwarten. Versucht man aber, mit unterschiedlichen Pra- 
diktoren moglichst die gesamte Breite der Bedingungen zu erfassen, so stellt sich die 
Frage, wie diese unterschiedlichen Informationen relativ zueinander zu gewichten 
sind. Die Frage wird beantwortet, indem als Gesamtwert eine gewichtete Summe der 
Pradiktoren gebildet wird. Die Gewichtung wird bei einem quantitativ erfaBten Merk- 
mal durch die multiple Regression, bei einem nicht-quantitativ erfaBbaren Kriterium 
(Zuordnung zu qualitativ verschiedenen Kategorien) durch die Diskriminanzanalyse 
bestimmt. 

Als Pradiktoren konnen Informationen unterschiedlicher Art (Tests, Beurteilungen, 
Schulnoten, Alter u.a.) herangezogen werden. Wenn im folgenden von Tests als Pra- 
diktoren die Rede ist, so ist das als Beispiel, nicht als Einschrankung zu verstehen. 



4.1.1 Multiple Regression zur Maximierung der Kriteriumskorrelation 

Die multiple Regression kann verwendet werden, um bei bereits feststehender Test- 
auswahl die optimale Gewichtung zu finden, kann aber auch bei der Testauswahl 
selbst eingesetzt werden. 

Wenn bereits feststeht, welche Tests X b X 2 . . X p (z.B. die zehn Untertests des In- 
telligenz-Struktur-Tests von Amthauer, 1970) zur Vorhersage eines bestimmten Kri- 
teriums Y (z.B. der Schulnote) verwendet werden sollen, so bestimmt die multiple 
Regressionsrechnung die Gewichte so, daB sich zwischen der gewichteten Summe der 
Tests und dem Kriterium eine maximale Korrelation ergibt. Man benotigt dazu die 
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Korrelationen aller Tests untereinander und mit dem Kriterium. Sofern nicht durch 
eine Standardisierung an der vorliegenden Stichprobe alle Variablen auf gleiche Mit- 
telwerte und gleiche Streuung gebracht werden, benotigt man auBerdem die Mittel- 
werte und Varianzen aller Variablen. Daraus lassen sich die optimalen Gewichte be- 
rechnen (das Verfahren kann hier nicht dargestellt werden. Es ist in jedem Lehrbuch 
iiber multivariate Statistik beschrieben; Literaturhinweise am Ende dieses Kapitels). 
Sie heiBen multiple Regressionsgewichte (Beta-Gewichte). Hat man die Gewichte 
bestimmt, so wird der Kriteriumswert wie folgt geschatzt: 

[4. 1] Y* = pi Xi + ^ 2 X 2 + . . . + PpXp + cx 

Y* = geschatzter Kriteriumswert 

B[, B 2) . . . B p = multiple Regressionsgewichte (Beta-Gewichte) 
a = Regressionskonstante 

Die Regressionsgewichte hangen von den Kovarianzen der einzelnen Tests mit dem 
Kriterium, aber auch von den Kovarianzen der Tests untereinander ab. Jedes Hinzu- 
fiigen weiterer Tests verandert in der Regel alle Regressionsgewichte. Die Regres- 
sionskonstante wird so bestimmt, daB Y und Y* den gleichen Mittelwert haben. Die 
Korrelation zwischen den Schatzwerten Y* und den tatsachlichen Kriteriumswerten 
Y heiBt multiple Korrelation (R). 

Berechnet man die multiplen Regressionsgewichte und die multiple Korrelation an 
derselben Stichprobe, so kommt es - insbesonders bei kleinen Stichproben und vie- 
len Variablen - zu einer systematischen Uberschatzung der multiplen Korrelation. Das 
liegt daran, daB die geschatzten Regressionsgewichte an die spezielle Stichprobe an- 
gepaBt werden, also z.B. bei 10 Tests immerhin 10 Parameter. Wenn die Stichprobe 
nur aus n = 10 Personen besteht, kann man mit 10 im nachhinein angepaBten Parame- 
tem in jedem Fall eine perfekte “Vorhersage” der Kriteriumswerte erzielen, selbst 
dann, wenn in der Grundgesamtheit keinerlei Zusammenhang bestehen sollte. Bei 
einer Stichprobe von n = 20 Personen und 10 Tests sind zwar mehr vorherzusagende 
Kriteriumswerte als anzupassende Parameter vorhanden, aber es wird immer noch zu 
einer deutlichen Uberschatzung der multiplen Korrelation kommen. Dieser systema- 
tische Schatzfehler stellt allerdings kein grundsatzliches Problem dar, sondern kann 
mit Hilfe geeigneter Korrekturformeln behoben werden (Naheres dazu siehe Stevens, 
1986, Kapitel 3.13). 

Wenn noch nicht feststeht, welche Tests endgiiltig zur Kriteriumsvorhersage ver- 
wendet werden sollen, kann die Auswahl der Tests mit Hilfe einer schrittweisen mul- 
tiplen Regression erfolgen. Bei der sogenannten “Vorwarts-Strategie” wird zunachst 
der Test gesucht, der die hochste Korrelation zum Kriterium hat. Unter den iibrigen 
wird dann derjenige herausgesucht, der zusammen mit dem ersten die hochste mul- 
tiple Korrelation (von nunmehr zwei Tests zum Kriterium) ergibt. Dieser Test kommt 
als zweiter in die Auswahl. Unter den verbleibenden wird wieder derjenige heraus- 
gesucht, der als dritter, zusammen mit den bereits ausgewahlten Tests die hochste 
multiple Korrelation ergibt, usw. Das Verfahren wird abgebrochen, wenn derZuwachs 
an multipier Korrelation, der sich bei Hinzunahme weiterer Tests erzielen laBt, nicht 
mehr als lohnend erscheint. Bei der sogenannten “Riickwarts-Strategie’' berechnet 
man zunachst die multiple Korrelation unter Verwendung aller Tests und laBt dann 
schrittweise immer denjenigen Test weg, dessen Streichung zum geringsten Verlust 
an multipier Korrelation fiihrt. Beide Strategien haben sich praktisch bewahrt, bieten 
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aber mathematisch gesehen keine Garantie fur eine optimale Losung: Wahlt man auf 
die beschriebene Art fiinf von zehn Tests aus, so braucht Vorwarts- und Riickwarts- 
strategie nicht zum selben Ergebnis zu fiihren und keine von beiden kann garantie- 
ren, daB es nicht eine noch bessere Fiinfer-Kombination gibt. Rechenprogramme, wie 
z.B. SPSSX, bieten sowohl Vorwarts- als auch Riickwartsstrategie, als auch gemischte 
Strategien an. 

Wenn anhand von Stichprobendaten eine Untertest-Selektion stattgefunden hat, 
fuhrt die Berechnung der multiplen Korrelation an denselben Daten der Erwartung 
nach zu einer systematischen Uberschatzung der Giite der Vorhersage in der Popula- 
tion. Diese Uberschatzung als Folge der Selektion geht iiber das hinaus, was durch 
die Anpassung der Regressionsgewichte bei feststehender Untertestauswahl bedingt 
ist. Die zu erwartende Uberschatzung ist umso starker, je kleiner die Stichprobe ist 
und je starker selegiert wird. Dieses Problem ist nun nicht mehr durch Korrekturfor- 
meln losbar, sondem erfordert eine sogenannte “Kreuzvalidierung” . Dafiir miissen 
zwei unabhangige Datensatze zur Verfiigung stehen (z.B. durch Zufallsaufteilung der 
Gesamtdaten in zwei Halften). An dem einen Datensatz fuhrt man die Untertestaus- 
wahl durch und bestimmt die multiplen Regressionsgewichte, an dem zweiten Daten- 
satz wird die so gewonnene Schatzgleichung angewendet und die Korrelation zwi- 
schen Schatzwerten und Kriterium bestimmt. Diese kreuzvalidierte multiple 
Korrelation gibt dann eine unverzerrte Schatzung fur die Giite der Vorhersage, die bei 
Anwendung der Schatzgleichung auf weitere Probanden erreicht werden wird. Bei- 
spiel (4.1) illustriert dieses Vorgehen. 

Die in [4.1] angegebene Schatzformel geht davon aus, daB das Kriterium aufgrund 
einer gewichteten Summe der Testwerte vorhergesagt werden soil. Grundsatzlich ist 
es auch moglich, den in Formel [4.1] angegebenen Ansatz zu erweitem, indem man 
nichtlineare Ausdriicke (z.B. das Produkt zweier Testwerte, quadratische Funktionen 
der Testwerte usw.) hinzufiigt, was allerdings in der Praxis kaum angewendet wird. 
Wenn Testwerte und Kriteriumswerte multivariat normalverteilt sind, ist die Regres- 
sion des Kriteriums Y auf die Tests X h X 2 .. X p linear, und der gemaB Formel [4.1] 
berechnete Schatzwert Y* liefert die bestmogliche Kriteriumsvorhersage, die aus den 
Tests zu erstellen ist. 

Mit Hilfe der multiplen Regression scheint das Problem der Kriteriumsvorhersage 
optimal gelost zu sein. Wenn es mit psychologischen Testbatterien gelange, in einem 
Anwendungsbereich die wesentlichen Grunddimensionen individueller Unterschie- 
de zu erfassen (z.B. fur den Bereich der Schulleistungen die wesentlichen Intelligent - 
faktoren, Interessens- und Einstellungsdimensionen), so konnte man die unterschied- 
lichen Kriterien (z.B. Noten in den einzelnen Schulfachern, Erfolg in verschiedenen 
Ausbildungsgangen) aus einer einheitlichen Testbatterie (allgemeiner: einem festen 
Satz von Pradiktoren) unter Verwendung der jeweils optimalen Gewichtung vorher- 
sagen. Demgegeniiber erscheint es zunachst iiberraschend, daB die multiple Regres- 
sion in der Praxis so wenig genutzt wird: Kaum ein Testmanual enthalt Berichte iiber 
Multiple-Regressions-Studien oder empfiehlt die Anwendung bestimmter Regres- 
sionsgewichte; lediglich einige Test-Kurzformen, die auf multiplen Regressions- 
Schatzungen des Gesamttestwerts beruhen, erfreuen sich groBerer Verbreitung (z.B. 
WIP nach Dahl, 1972; WIPKI nach Baumett, 1973). Dafiir diirften folgende Griinde 
verantwortlich sein: 
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Beispiel 4.1: Verwendung der multiplen Regression zur Vorhersage der Gesamt- 
testleistung aus einer Kurzform 

Der Hamburg-Wechsler-Intelligenztest fur Kinder (HAWIK) besteht aus 10 Un- 
tertests. Baumett (1973) setzte sich zum Ziel, daraus eine Kurzform zu entwik- 
keln, die mit dem aus dem Gesamttest errechneten IQ moglichst hoch korrelieren 
soil. Daraus ergeben sich die Fragen, (a) welche der 10 Untertests verwendet werden 
sollen und (b) wie diese Untertests gewichtet werden sollen. FaBt man das Ge- 
samttestergebnis als Kriterium Y auf und die Untertests als die Pradiktoren Xi bis 
X 10 , so laBt sich diese Fragestellung mittels multipier Regression bearbeiten. Die 
folgende Darstellung des Vorgehens von Baumert (1973) ist vereinfacht und be- 
zieht nur einen Teil der dort durchgefuhrten Analysen mit ein. 

Als Daten standen die Testprotokolle von 614 Kindern zur Verfiigung, die den ganzen 
Test bearbeitet hatten. In Hinblick auf die geplante Kreuzvalidierung wurde zu- 
nachst die Gesamtstichprobe nach dem Zufall in zwei Teilstichproben zu je 307 
Testprotokollen aufgeteilt. Es wurde an jeder der beiden Teilstichproben getrennt 
eine schrittweise multiple Regression nach der Vorwartsstrategie durchgefiihrt. Dabei 
ergab sich in beiden Stichproben nach Auswahl von vier Untertests eine hohe multiple 
Korrelation (.94 und .95). 

Die in die Auswahl aufgenommenen Tests waren aber nicht genau dieselben: Nur 
drei der vier Tests (AW=Allgemeines Wissen, GF=Gemeinsamkeiten finden, 
BO=Bilder ordnen) waren in beiden Fallen in der Auswahl, als vierter Test tauchte 
einmal FL(=Figurenlegen), einmal MT(=Mosaiktest) auf. Aufgrund weiterer Ge- 
sichtspunkte, u.a. aufgrund der hoheren Reliabilitat von MT im Vergleich zu FL, 
wurde dann die Kombination AW,GF,BO,MT als Kurzform festgelegt. 

Danach wurde die Schatzgleichung aufgestellt und kreuzvalidiert. Die Regres- 
sionsgewichte wurden zunachst an der einen Datenhalfte bestimmt, und dann an 
der anderen Datenhalfte angewendet, um die kreuzvalidierte Korrelation zu be- 
rechnen. Dabei zeigt sich nur eine minimale Schrumpfung der kreuzvalidierten 
gegeniiber der an derselben Teilstichprobe berechneten multiplen Korrelation. Diese 
geringe Schrumpfung ist dem groBen Stichprobenumfang von 2 mal 307 Perso- 
nen zu verdanken. 

Nach dieser Absicherung wurde als beste Schatzung der in der Population giilti- 
gen Regressionsgleichung die Regressionsgleichung aus den Gesamtdaten (n=614) 
berechnet. Sie lautet: 

IQ* = 33 + 1.84 AW+ 1.35 GF+ 1.41 BO + 1.66 MT 

Ftir die Leistungen in den einzelnen Untertests sind dabei die jeweils erzielten Punkte 
(sog.“Wertpunkte”, die aus den Antworten des Probanden gemaB Testhandanweisung 
altersspezifisch zu bestimmen sind) einzusetzen. Die angegebene Formel schatzt 
dann aus den vier Untertests den IQ, den der Proband bei Vorgabe des ganzen Tests 
erhalten hatte. 

Als Anmerkung kann man feststellen, daB sich die Regressionsgewichte fur die 
vier Untertests nicht sehr stark unterscheiden. Das legt die Vermutung nahe, daB 
eine einfache ungewichtete Addition mit anschlieBender Transformation auf IQ- 
Einheiten keine wesentlich schlechteren Ergebnisse gebracht hatte. 
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(1.) Ein Hinzufiigen oder Wegnehmen von Tests verandert in der Regel alle Regres- 
sionsgewichte. Eine multiple Regressionsschatzung ist also nur moglich, wenn genau 
die angegebene Testbatterie verwendet wird. 

(2.) Die multiplen Regressionsgewichte andern sich von Population zu Populati- 
on. Alles, was auf die Korrelationen der Tests untereinander und die Korrelationen 
der Tests mit dem Kriterium EinfluB hat (insbesondere Selektionseinfliisse aller Art), 
beeinfluBt auch die Regressionsgewichte. Eine multiple Regressionsgleichung ist also 
nur dann anzuwenden, wenn die zu beratenden Probanden aus derselben Population 
stammen, fur die die Regressionsgewichte bestimmt wurden. Das aber erscheint viel- 
fach als fraglich, zumal wenn die Regressionsstudie zeitlich und ortlich unter recht 
speziellen Bedingungen durchgefuhrt wurde. 

(3.) Wenn die Tests gleich standardisiert sind und untereinander und mit dem Kri- 
terium positiv korrelieren, liegt die multiple Korrelation nur wenig iiber dem Wert, 
den man bei einer einfachen gleichgewichtenden Addition erreicht (Wainer, 1976). 
Die einfache Addition hat aber Vorteile, wenn man daran denkt, daB das Testergebnis 
dem Ratsuchenden vermittelt werden muB: Das Abschneiden in den einzelnen Unter- 
tests sowie ein aus den Untertests gleich gewichtend errechneter Gesamtwert ist dem 
Probanden leicht verstandlich zu machen. Die Gewichte der multiplen Regression 
konnen fur den Probanden unplausibel sein und zu einer Ablehnung des darauf ge- 
griindeten Rates fiihren. Diese Griinde, zusammen mit dem erheblichen Datenauf- 
wand, der mit dem Erstellen einer multiplen Regressionsgleichung verbunden ist, 
durften wohl dafiir verantwortlich sein, daB die multiple Regression in der Praxis nicht 
starker zum Einsatz kommt. 



4.1.2 Diskriminanzanalyse zur optimalen Trennung von Kriteriumsgruppen 

Wenn das Kriterium nicht quantitativ erfaBt ist (wie z.B. Ausbildungserfolg, gemes- 
sen an den AbschluBnoten), sondern zwischen qualitativ verschiedenen Gruppen 
unterschieden werden soil (z.B. zwischen erfolgreichen Vertretem unterschiedlicher 
Berufsgruppen: zwischen mehreren klinischen Gruppen, o.a.), kann eine Diskrimi- 
nanzanalyse eingesetzt werden. Aus der Testbatterie wird dann - ahnlich wie bei der 
multiplen Regression - eine gewichtete Summe gebildet, wobei die Gewichte so ge- 
wahlt werden, daB sich die Gruppen im Summenwert moglichst gut unterscheiden: 
Die Mittelwertsunterschiede zwischen den Gruppen sollen moglichst groB, die Va- 
rianz innerhalb der Gruppen moglichst klein sein. Die entsprechenden Gewichtszah- 
len heiBen Diskriminanzgewichte, die mit den Diskriminanzgewichten aus den Test- 
werten gebildete gewichtete Summenvariable heiBt Diskriminanzfunktion. Die Werte 
der einzelnen Probanden auf der Diskriminanzfunktion heiBen Diskriminanzyverte. 
Die Diskriminanzgewichte hangen von den Mittelwerten der Gruppen in den Tests ab, 
aber auch von den Varianzen und den Kovarianzen der Tests untereinander, sowie von 
den relativen Anteilen, mit denen Vertreter der einzelnen Gruppen in der Stichprobe 
reprasentiert sind (bei einer Diskriminanzanalyse zur Unterscheidung zwischen Be- 
rufsgruppen vom Anteil der einzelnen Berufe an der Gesamtstichprobe). 

Bei mehr als zwei Gruppen konnen mehrere Diskriminanzfunktionen gebildet wer- 
den, bei k Gruppen maximal k-1. Die erste wird so gewahlt, daB sie eine bestmogli- 




82 



4. Multivariate Verfahren im Dienst der Testtheorie 



che Trennung der Gruppen (gemessen als Varianz zwischen den Gruppenmittelwer- 
ten relativ zur Varianz innerhalb der Gruppen) ermoglicht. Die Gewichte fur die zwei- 
te Diskriminanzfunktion werden so gewahlt, daB der resultierende Summenwert 
(zweite Diskriminanzfunktion) mit dem ersten unkorreliert ist. Unter dieser Restrik- 
tion wird wieder nach einer Gewichtung gesucht, die die Gruppen bestmoglich trennt. 
Die dritte Diskriminanzfunktion muB mit jeder der ersten beiden unkorreliert sein, 
usw. (zur rechnerischen Durchfiihrung sowie zur Erweiterung des Ansatzes auf nicht- 
lineare Funktionen sei auf die am Ende des Kapitels angefiihrten Lehrbiicher verwie- 
sen). 

Kennt man ‘die Testwerte eines Probanden, so konnen daraus seine Werte in den 
Diskriminanzfunktionen berechnet werden. Wenn bestimmte Voraussetzungen erfullt 
sind (die Testwerte sind in jeder Kriteriumsgruppe multivariat normalverteilt; die Ko- 
varianzmatrizen sind gleich; die Grundraten, d. h. die Anteile, die die einzelnen Kri- 
teriumsgruppen an der Gesamtpopulation ausmachen, sind bekannt), kann man dar- 
aus die bedingten Wahrscheinlichkeiten fur die Zugehorigkeit zu den einzelnen 
Kriteriumsgruppen berechnen. Unter schwacheren Voraussetzungen kann man globa- 
le AhnlichkeitsmaBe verwenden, die die Nahe des Probanden zu den einzelnen Kri- 
teriumsgruppen ausdrucken. Darauf aufbauend konnen verschiedene diagnostische 
Entscheidungsstrategien gewahlt werden, nach denen die Probanden den Kriteriums- 
klassen zugeordnet werden: Man kann die Entscheidungsregel so wahlen, daB einfach 
die Gesamtzahl richtig Klassifizierter maximiert wird, oder man kann verschiedene 
Arten von Fehlklassifikationen unterschiedlich stark gewichten und ein daraus abge- 
leitetes NiitzlichkeitsmaB maximieren (Naheres dazu findet man bei Kallus & Janke, 
1988). 

Ahnlich wie bei der multiplen Regression kann man auch bei der Diskriminanza- 
nalyse versuchen, durch schrittweises Hinzufiigen von Tests eine moglichst sparsa- 
me Testbatterie zusammenzustellen, die eine moglichst gute Trennung der Kriteriums- 
gruppen erlaubt. Statt schrittweise hinzuzufiigen (Vorwartsselektion), kann man auch 
von einer gegebenen Testbatterie ausgehend schrittweise jeweils denjenigen Test 
weglassen, der am wenigsten zur Unterscheidung der Gruppen beitragt (Ruckwarts- 
selektion). 

Bezuglich der Verallgemeinerbarkeit der Ergebnisse aus einer Diskriminanzana- 
lyse sind dieselben Einschrankungen zu machen, wie bei einer multiplen Regression: 

(1.) Ein Hinzufiigen oder Wegnehmen von Tests verandert in der Regel alle Dis- 
kriminanzge wichte . 

(2.) Ein Hinzunehmen oder Wegnehmen von Gruppen oder Verschiebungen in den 
relativen Anteilen der Gruppen an der Gesamtpopulation verandert in der Regel die 
Diskriminanzgewichte. 

(3.) Wenn die Berechnung der Diskriminanzfunktionen und die Bestimmung der 
Vorhersagegenauigkeit (Prozent richtig klassifizierter Probanden) an derselben Stich- 
probe erfolgen, kommt es zu einer Uberschatzung der Gilte der Vorhersage. Das gilt 
in verstarktem MaB, wenn anhand derselben Daten eine Variablenselektion (s. oben) 
stattgefunden hat. Die Uberpriifung der Vorhersagegenauigkeit sollte deshalb an ei- 
nem neuen, unabhangigen Datenmaterial erfolgen (Kreuzvalidierung). 

Eines der groBten Forschungsprojekte im Bereich der angewandten Diagnostik, bei 
dem die Diskriminanzanalyse eingesetzt wird, diirfte die Entwicklung der maschinel- 
len Auswertung der Testbogen in der Berufsberatung sein (Engelbrecht 1975; 1978). 
Bei der Bundesanstalt fur Arbeit liegen aufgrund langjahriger Datensammlung inzwi- 
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schen fur eine Vielzahl von Berufen Testwerte ehemaliger Ratsuchender vor, die in- 
zwischen ihren Beruf erfolgreich ausiiben. Aufgrund einer diskriminanzanalytischen 
Auswertung, die mit EDV.-Einsatz realisiert wird, ist es moglich, fur jeden neuen 
Ratsuchenden die globale Ahnlichkeit zu den Vertretem der einzelnen Berufsgruppen 
als bedingte Wahrscheinlichkeit der Berufsgruppenzugehorigkeit anzugeben. Im Be- 
ratungsgesprach stellt sich allerdings das Problem, wie das Testergebnis an den Rat- 
suchenden zu vermitteln ist, so daB das Zustandekommen einer Empfehlung fur den 
Probanden nachvollziehbar ist. Dazu sind Werte auf Diskriminanzfunktionen wenig 
geeignet. Deshalb wird zusatzlich fur jede Berufsgruppe angegeben, in welchen Ein- 
zeltests (Leistungstests, Interessentests) der Proband relativ zu dieser Berufsgruppe 
sehr hohe oder sehr niedrige Werte aufweist, also vom durchschnittlichen Vertreter 
dieser Berufsgruppe stark abweicht. Sowohl Abweichungen nach oben (hohe Fahig- 
keiten oder Interessen in Bereichen, die fur den Beruf nicht typisch sind) als auch nach 
unten (geringe Auspragung von berufstypischen Interessen und Fahigkeiten) konnen 
auf Probleme hinweisen und Gegenstand des weiteren Beratungsgesprachs sein. 



Zusammenfassung 

Die Frage, wie mehrere Pradiktoren zu gewichten sind, um ein Kriterium bestmog- 
lich vorherzusagen, wird bei quantitativ erfaBbaren Kriterien durch die multiple Re- 
gression, bei qualitativ et-faBbaren Kriterien durch die Diskriminanzanalyse beantwor- 
tet. Bei der multiplen Regression wird aus der gewichteten Summe der Pradiktoren 
ein geschatzter Kriteriumswert berechnet; MaB fur die Giite der Vorhersage ist die 
multiple Korrelation. 

Bei der Diskriminanzanalyse werden aus den Pradiktoren zunachst Werte auf Dis- 
kriminanzfunktionen berechnet; aus diesen wieder konnen bedingte Wahrscheinlich- 
keiten fur die Zugehorigkeit zu den einzelnen Kriteriumsgruppen (oder andere MaBe, 
die die Nahe des Probanden zu den einzelnen Kriteriumsgruppen ausdrucken) berech- 
net werden. MaB fur die Giite der Vorhersage ist der Anted richtig klassifizierter 
Probanden oder ein darauf aufbauendes NiitzlichkeitsmaB. Die Ergebnisse sowohl 
einer multiplen Regression als auch einer Diskriminanzanalyse sind fur die Personen- 
population und die spezielle Pradiktorenauswahl spezifisch und konnen in der Regel 
nicht dariiber hinaus verallgemeinert werden. 
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1) Von welchen Grundannahmen geht die klassische Faktorenanalyse aus? 

2) WammkommteszwischenfaktorenanalytischenTheorienzukeinerEntschei- 
dung? Warum warden die Ergebnisse von Faktorenanalysen nicht raehr als funk- 
tional erklarende Theorien betrachtet? 

3) WasunterscheidetkonfimiatorischeFaktoranalysenvonexploratorischen?Wel- 
che Anwendungsmoglichkeiten bieten sich in der Testtheorie? 



Vorstrukturierende Lesehilfe 

Die Faktorenanalyse ist ein multivariates Verfahren, das mit der Geschichte der Theo- 
rienbildung im Bereich der Intelligent- und Personlichkeitsforschung und mit der 
Entwicklung psychologischer Tests besonders eng verbunden ist. Die Ideen der gros- 
sen Faktorentheoretiker wie Spearman, Guilford, Thurstone haben die Konzepte un- 
serer heutigen Tests in Inhalt und Aufbau nachhaltig beeinfluBt. Die heute im Ge- 
brauch befindlichen psychometrischen Tests gehen iiberwiegend auf diese Vorbilder 
zuriick. 

Der urspriinglich hohe Anspruch, mit der Faktorenanalyse eine funktionale Ana- 
lyse leisten zu konnen, z. B. die Grundfahigkeiten zu entdecken und zu messen, aus 
denen die menschlichen Intelligenzleistungen erklarbar wiirden, wird heute allerdings 
nicht me hr erhoben. Vielmehr betrachtet man heute die Faktorenanalyse als eine 
Methode, die geeignet ist, Korrelationsmuster iiberschaubarer zu machen und Inter- 
pretationsmoglichkeiten aufzuzeigen. Auch mit diesem reduzierten Anspruch kann sie 
zur Beantwortung der Frage nach der Validitat eines Tests wertvolle Beitrage leisten. 
Im folgenden wird zunachst der Grundansatz der Faktorenanalyse dargestellt, dann 
werden die Hauptkritikpunkte wiedergegeben, die zu der erwahnten Riicknahme des 
Anspruchs gefuhrt haben. SchlieBlich soli noch die konfirmatorische Faktorenanaly- 
se als Weiterentwicklung der klassischen Faktorenanalyse beziiglich ihrer Anwendung 
auf testpsychologische Fragestellungen diskutiert werden. 



4.2.1 Grundannahmen der Faktorenanalyse 

Die folgende Darstellung orientiert sich am Modell mehrerer gemeinsamer Faktoren 
als dem allgemeinsten Ansatz. Andere Modelle lassen sich als Spezialfalle auffassen, 
die aus diesem Ansatz durch Zusatzannahmen hervorgehen (z. B. das Ein-Faktor- 
Modell durch die Annahme, es gebe nur einen gemeinsamen Faktor; das Hauptkom- 
ponenten-Modell durch die Annahme, die gesamte Testvarianz gehe auf gemeinsame 
Faktoren zuriick). Eine umfassende Darstellung, die auch historische Aspekte mitein- 
bezieht, gibt Pawlik (1971). 

4.2. 1.1 Die Grundgleichungen 

Als Beispiel wollen wir annehmen, wir hatten die Korrelationen zwischen einer Viel- 
zahl von Feistungstests (Intelligenztests, Schulleistungstests usw.) vorliegen. Es liegt 
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nahe, anzunehmen, daB diese Korrelationen dadurch zustande kommen, daB die Tests 
sich in ihren Anforderungen iiberschneiden, d.h. z.T. dieselben Fahigkeiten beanspru- 
chen. Ziel der Faktorenanalyse ist es nun, solche mehreren Tests gemeinsamen Fa- 
higkeiten zu definieren und ihr relatives Gewicht fur die einzelnen Tests zu bestim- 
men. Allgemeiner gesprochen, besteht das Ziel der Faktorenanalyse darin, 
Korrelationen zwischen Variablen (hier: Leistungstests) auf gemeinsame Faktoren (= 
Dimensionen individueller Unterschiede, hier: Fahigkeiten) zuruckzufiihren und da- 
mit eine sparsame Interpretation der Korrelationen anzubieten. 

GemaB den Annahmen der Faktorenanalyse sind also fur jede Testleistung mehre- 
re Fahigkeiten (= Faktoren) erforderlich (z.B. zum Losen eingekleideter Rechenauf- 
gaben: Textverstandnis, schluBfolgemdes Denken, Rechenfertigkeit), die sich mit 
unterschiedlichen Gewichten auf die Testleistung auswirken. Fahigkeiten (Faktoren), 
die von mehreren Tests (einer in einer Faktorenanalyse gemeinsam analysierten Test- 
gruppe) beansprucht werden, heiBen gemeinsame Faktoren, solche die nur in einem 
einzigen Test vorkommen, spezifische Faktoren. Dariiber hinaus enthalt jeder Test 
MeBfehler. 

Gleichung [4.2] gibt an, wie die Testleistung einer Person in einem Test gemaB den 
Grundannahmen der Faktorenanalyse zustande kommt: 

[4.2] ziv = an fi» + ai:f’» + ....+ uiv 

Z iv = Testwert der Person v im Test i, ausgedruckt in z-Werten, 
d.h. standardisiert auf Mittelwert 0 und Varianz 1. 

a n = Gewicht, mit dem Faktor 1 die Testleistung im Test i bestimmt 
= Faktorladung des Tests i in Faktor 1. 

a a = Faktorladung des Tests i in Faktor 2. 

Weitere Faktorladungen sind analog definiert. 

f lv = Faktorwert der Person v im ersten Faktor 

(individuelle Fahigkeitsauspragung in Faktor 1). 

f 2v = Faktorwert der Person v im zweiten Faktor. 

Weitere Faktorwerte fur Person v sind analog definiert. 

Die Faktorwerte sind fur jeden Faktor auf den Mittelwert 0 und die Varianz 1 stan- 
dardisiert. 

U iv = Durch die gemeinsamen Faktoren nicht erklarter Restanteil (englisch: 

uniqueness). Er enthalt Einfliisse spezifischer Faktoren und MeBfehler und 
wird als von den gemeinsamen Faktoren unabhangig vorausgesetzt. 

Aus dieser Grundgleichung ergibt sich, wie die Korrelation zwischen zwei Tests i 
und j zustande kommt: Die Leistung der Person v im Test j kann analog zerlegt wer- 
den (Gleichung [4.2a]): 

[4.2a] Zj. = a, i fi* + a,: f:v + ....+ Uj». 

Betrachtet man nun die Kovarianz (= Korrelation, weil die Tests z-standardisiert 
sind) zwischen Test i und j, so sieht man, daB sie einerseits von den Gewichten (= Fak- 
torladungen) abhangt, die die gemeinsamen Fahigkeiten fur die beiden Tests haben, 
andererseits von den Korrelationen der Fahigkeiten (= Faktorwerte) untereinander. 

In einer obliquen Faktorenanalyse werden die Fahigkeiten als beliebig korreliert 
gedacht, in der orthogonalen Faktoranalyse werden sie als unabhangig vorausgesetzt 
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bzw. definiert. Die Annahme unabhangiger Faktoren fuhrt zu einigen mathematischen 
V ereinfachungen . 

So ergibt sich in der orthogonalen Faktorenanalyse die Korrelation zwischen zwei 
Tests i und j allein aus den Ladungen in den gemeinsamen Faktoren, wie in [4.3] an- 
gegeben: 

[4.3] rij = aii aji + a ,2 a ,2 + ... 

Dariiber hinaus laBt sich in der orthogonalen Faktorenanalyse die Ladung zugleich 
als die Korrelation des Tests mit den Faktorwerten in diesem Faktor interpretieren. 
Weiterhin laBt sich bei orthogonalen Faktoren die beobachtbare Testvarianz in addi- 
tive Anteile aufspalten, die auf die einzelnen Faktoren zuriickgehen (Gleichung [4.4]): 

[4.4] O'(zi) = a 2 n + a 2 i2 + ....+ o 2 (u,) 

Das Quadrat der Ladung (a 2 ) gibt somit den Anted an der Testvarianz an, der auf 
den entsprechenden Faktor (auf individuelle Unterschiede in der entsprechenden Fa- 
higkeit) zuriickzufuhren ist. Die Summe der Ladungsquadrate fur einen Test heiBt 
Kommunalitat und gibt an, zu welchem Anted die Varianz dieses Tests durch die ge- 
meinsamen Faktoren “aufgeklart” wird. Sie wird gewohnlich mit h 2 bezeichnet. Zur 
globalen Charakterisierung, inwieweit in einer Faktoranalyse die Varianz aller Varia- 
blen durch die gemeinsamen Faktoren aufgeklart wird, kann man die durchschnittli- 
che Kommunalitat angeben. Zur Charakterisierung dessen, wieviel jeder einzelne 
Faktor zur aufgeklarten Varianz aller Variablen beitragt, kann man die Summe der 
Ladungsquadrate dieses Faktors (summiert iiber die Variablen) zur Summe der Kom- 
munalitaten in Beziehung setzen. 

4.2. 1.2 Geometrische Darstellung, Rotationsproblem, Kommunalitatenproblem 

Die rechnerische Aufgabe der Faktorenanalyse besteht darin, aus den Korrelationen 
aller Tests untereinander die Faktorladungen zu bestimmen. Dabei ist man bestrebt, 
mit moglichst wenigen Faktoren auszukommen und dabei die Faktorladungen so zu 
bestimmen, daB man aus ihnen die beobachteten Korrelationen moglichst genau re- 
produzieren kann. Hat man es z.B. mit 20 Tests zu tun, deren Korrelationen aus 3 
Faktoren erklart werden sollen, so miissen sich die 190 beobachteten Korrelationen 
aus nur 20 x 3 = 60 Faktorladungen jeweils gemaB Gleichung [4.3] ergeben. 

Wie man rechnerisch vorgeht, um dies in bestmoglicher Naherung zu erreichen und 
wie man entscheidet, ob weitere Faktoren notwendig sind, kann hier nicht dargestellt 
werden. Statt dessen sollen hypothetische Ausgangsdaten und das Ergebnis einer or- 
thogonalen Faktorenanalyse die Grundgleichungen an einem Zahlenbeispiel illustrie- 
ren. An diesem Beispiel soli dann auch die geometrische Darstellung und das Rota- 
tionsproblem erlautert werden. 

Tabelle 4.1a enthalt die Korrelationen zwischen 6 Tests (fingierte Daten), Tabelle 
4.1b die Faktorladungen in zwei gemeinsamen Faktoren und Tabelle 4.1c die aus den 
Faktorladungen gemaB Gleichung (4.3) rekonstruierten Korrelationen. Die Abwei- 
chungen zwischen den Korrelationen in den Daten und den rekonstruierten Korrela- 
tionen (= Residuen) sind hier so gering, daB man zwei Faktoren als zur Erklarung der 
Korrelationen ausreichend ansehen wird (Tabelle 4. Id). 
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Tabelle 4.1a: Korrelationen zwischen 6 Tests (fingierte Daten) 

Test 





1 


2 


3 


4 


5 


6 


1 


. 


.41 


.43 


.30 


.33 


.19 


2 


- 


- 


.70 


.50 


.56 


.30 


3 


- 


- 


- 


.54 


.63 


.36 


4 


- 


- 


- 


- 


.68 


.39 


5 


- 


- 


- 


- 


- 


.44 



6 



Tabelle 4.1b: Faktorladungen der 6 Tests in den 2 Faktoren und Kommunalitaten 
der Tests 



Faktoren Kommunalitat 

I II h 2 



1 


.46 


.20 


.21 


2 


.74 


.32 


.55 


3 


.83 


.36 


.69 


4 


.35 


.70 


.61 


5 


.44 


.74 


.74 


6 


.25 


.44 


.26 



Tabelle 4.1c: Aus den in Tabelle 4.1b angegebenen Faktorladungen gemaB Gleichung 
[4.3] rekonstruierte Korrelationen zwischen den 6 Tests 

Test 





1 


2 


3 


4 


5 


6 


1 


_ 


.40 


.45 


.30 


.35 


.20 


2 


- 


- 


.72 


.48 


.56 


.32 


3 


- 


- 


- 


.54 


.63 


.36 


4 


- 


- 


- 


- 


.67 


.39 


5 


- 


- 


- 


- 


- 


.43 



6 
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Tabelle 4. Id: Residuen 

Differenzen zwischen den Ausgangskorrelationen in Tabelle 4.1a und den aus 
den Faktorladungen rekonstruierten Korrelationen in Tabelle 4.1c 

Test 





1 


2 


3 


4 


5 


6 


1 


- 


.01 


-.02 


.00 


-.02 


-.01 


2 


- 


- 


-.02 


+.02 


.00 


-.02 


3 


- 


- 


- 


.00 


.00 


.00 


4 


- 


- 


- 




+.01 


.00 


5 


- 


- 


- 


- 


- 


.01 


6 


- 


- 


- 


- 


- 


- 



Geometrische Darstellung 

Bei nur zwei Faktoren lassen sich die Ergebnisse einer Faktorenanalyse leicht gra- 
phisch veranschaulichen. In Abbildung 4.1 sind die Faktoren I und II als Achsen ei- 
nes Koordinatensystems dargestellt und die Tests sind gemaB ihren Ladungen einge- 
tragen. 




Abbildung 4.1: Darstellung von 6 Tests im zweidimensionalen Faktorraum. Ladungen ge- 

maB Tabelle 4.1b 



Es laBt sich zeigen (pythagoraischer Lehrsatz), daB die Wurzel aus der Kommuna- 
litat der Lange des Vektors eines Tests (graphisch als Pfeil vom Nullpunkt des Koor- 
dinatensystems zum Test hin dargestellt) entspricht. Weiter ergibt sich die Korrela- 
tion zweier Tests aus der Lange ihrer Vektoren und dem eingeschlossenen Winkel 
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(ableitbar aus dem Cosinus-Satz der Geometrie), wie in Gleichung [4.5] angegeben. 

[4.5] ry — an 3ji + 3i2 a .,2 = h, hj cos (p 

Diese Beziehungen gelten bei mehr als zwei Faktoren im mehrdimensionalen 
Raum entsprechend. 

Das Rotationsproblem 

Wenn man eine Faktorlosung gefunden hat, so kann man dazu beliebig viele weitere 
konstruieren, die zu genau denselben rekonstruierten Korrelationen fiihren, also ganz 
genauso gut auf die Daten passen: Wie in Gleichung [4.5] angegeben, hangen die Kor- 
relationen zwischen den Tests nur von der Lange ihrer Vektoren und den eingeschlos- 
senen Winkeln ab. Wenn nun das Koordinatensystem beliebig gedreht wird, so andert 
sich an diesen Winkeln und Langen nichts (d.h. die reproduzierten Korrelationen blei- 
ben gleich), wohl aber an den Koordinaten der Tests (den Faktorladungen), die nun 
am neuen Koordinatensystem abzulesen sind. Indem man das Koordinatensystem be- 
liebig dreht, kann man somit beliebig viele mathematisch gleichwertige Losungen fur 
die Faktorladungen produzieren. Diese konnen inhaltlich recht unterschiedliche Deu- 
tungen nahelegen: Bei der in Abbildung 4.1 bzw. Tabelle 4.1b dargestellten Losung 
kommen die Korrelationen zwischen den Tests durch zwei Faktoren zustande, auf 
denen alle Tests Ladungen haben. Durch eine Drehung des Koordinatensystems um 
ca. 24 Grad nach links erhalt man die in Abbildung 4.2a angegebene Losung mit ei- 
nem Generalfaktor und einem Gruppenfaktor. Die Tests 1,2,3 laden nur im General- 
faktor wahrend die Tests 4, 5, 6 einen zusatzlichen Faktor gemeinsam haben. Durch 
eine Drehung des Koordinatensystems um ca. 26 Grad nach rechts entsteht das in 
Abbildung 4.2b dargestellte Bild: Nun scheinen die Tests 4,5 und 6 nahezu nur einen 
Generalfaktor zu erfassen, wahrend die Tests 1,2,3 einen zusatzlichen Faktor gemein- 
sam haben. Das Problem, zwischen solchen mathematisch gleichwertigen, aber inhalt- 
lich verschiedenen Losungen zu entscheiden, ist als Rotationsproblem der Faktoren- 
analyse bekannt. Uber mathematische Versuche zu deftnieren, was eine “einfache” 
und damit gut interpretierbare Losung ist, und uber die rechnerische Durchfiihrung 
der Rotation bei mehr als zwei Faktoren soli hier nicht berichtet werden. Das Thema 
ist in den am Ende des Kapitels genannten Lehrbuchern behandelt. 



Schiefwinkelige Rotation und Faktoren zweiter Ordnung 

Bei den in Abbildung 4.1 und 4.2a,b dargestellten Losungen stehen die als Koordina- 
ten gezeichneten zwei Faktoren jeweils im rechten Winkel aufeinander. Dem ent- 
spricht die Annahme, daB die beiden Faktoren unkorreliert (= orthogonal) sind. Fak- 
tor I konnte z.B. Rechenfahigkeit, Faktor II Wortfliissigkeit sein. Die Orthogonalitat 
bedeutet dann, daB die beiden Fahigkeiten in der Personenpopulation nicht korrelie- 
ren. Wenn es gelange, zwei Tests zu konstruieren, von denen der eine ausschlieBlich 
Rechenfahigkeit miBt (also auf der Ordinate liegt) und der andere ausschlieBlich Wort- 
fliissigkeit miBt (also auf der Abszisse liegt), so ware der Winkel zwischen den Vek- 
toren dieser beiden Tests 90 Grad und gemaB Formel [4.5] miiBten auch die beobach- 
teten Testwerte zu Null korrelieren. 

Geht man von der Forderung unkorrelierter Faktoren ab, so kann man weitere 
Losungen produzieren, indem man die Koordination verschiedene Winkel bilden laBt 
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Abbildung 4.2: Rotation. Orthogonale Losungen (a) und (b) und eine nicht-orthogonale 

Losung (c) 




Gegeniiber der in Abbildung 4.1 dargestellten Losung ist das Koordinatensystem in (a) urn 
24 Grad nach links, in (b) um 26 Grad nach rechts gedreht. In (c) bilden die Koordinaten 
einen Winkel von 40 Grad und entsprechen einer Faktorkorrelation von 0.77. 

und jeweils die Koordinaten der Punkte in diesem schiefwinkeligen Koordinatensy- 
stem berechnet. Eine solche Losung ist in Abbildung 4.2c angegeben. Die Koordina- 
ten bilden hier einen Winkel von 41 Grad, was einer Korrelation der Faktoren von cos 
(41°) = 0.76 entspricht. Sowohl die Tests 1, 2, 3 als auch 4,5,6 liegen fast genau auf 
einer Koordinatenachse. Die Tests messen also jeweils (fast) nur eine der beiden Fa- 
higkeiten, die beiden Fahigkeiten sind aber miteinander korreliert. Auch dies ware 
eine inhaltlich plausible Deutung des Korrelationsmusters. 

Wenn man es nicht nur mit zwei, sondern mit mehreren Faktoren zu tun hat und 
sich fitr eine Losung mit korrelierenden Faktoren entschieden hat, so kann man wei- 
ter fragen, wie denn die Korrelationen zwischen den Faktoren zustande kommen. 
Nimmt man die Korrelationen zwischen den Faktoren als “Daten” und unterzieht sie 
ihrerseits einer Faktoranalyse, so nennt man die daraus resultierenden Faktoren “Fak- 
toren zweiter Ordnung”, und es entsteht ein hierarchisches Modell: Die Testleistun- 
gen werden aus gewichteten Summen von Fahigkeiten erklart, die Korrelationen 
zwischen den Fahigkeiten aus Faktoren zweiter Ordnung (z.B. Fahigkeiten wie Wort- 
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schatz, Worteinfallgeschwindigkeit, Erkennen verbaler Beziehungen aus einem all- 
gemeineren verbalen Faktor und spezifischeren Komponenten). Auch Faktorenana- 
lysen zweiter Ordnung lassen ihrerseits wieder Spielraum fur Rotation. 

Aufgrund der dargestellten Vielfalt aquivalenter Modelle wird man wohl kaum den 
Anspruch erheben, mittels Faktorenanalyse eine bestimmte Fosung als die richtige 
ausweisen zu konnen. So z.B. lassen die positiven Korrelationen zwischen Intelligenz - 
tests, die man in aller Regel findet (selbst wenn sich der Testautor um Unabhangig- 
keit der Einzeltests bemirht hat, z.B. Intelligenz-Struktur-Test von Amthauer, 1953, 
1970; Feistungspriifsystem von Horn, 1962), verschiedene inhaltliche Deutungen zu; 

(a) Es gibt einen Faktor der allgemeinen Intelligenz, der in alle Testleistungen mehr 
oder weniger stark eingeht. 

(b) Es gibt keinen allgemeinen Faktor, sondern Intelligenz besteht aus mehreren 
unabhangigen Einzelfahigkeiten. Es ist aber nicht moglich, faktoriell reine Tests zu 
konstruieren, sondern jeder Test beansprucht mehrere Fahigkeiten. 

(c) Es gibt keinen allgemeinen Faktor, sondern mehrere Einzelfahigkeiten. Die 
Tests (oder Testgruppen) erfassen jeweils nur eine dieser Fahigkeiten, die Fahigkei- 
ten sind miteinander korreliert. 

Jede dieser inhaltlichen Deutungen UiBt sich in ein faktorenanalytisches Modell 
umsetzen, jedes ist mit den Daten vereinbar. Diese Unentscheidbarkeit, die als Rota- 
tionsproblem schon im Modell-Ansatz enthalten ist, ist ein Grund dafitr, daB man von 
einer Faktoranalyse keine abschlieBenden Aussagen liber die einer Testleistung zu- 
grundeliegenden Funktionen und Prozesse erwarten kann. 

Praktisch bevorzugt werden moglichst einfache, gut interpretierbare Fosungen. Bei 
den meisten Arbeiten, die Faktorenanalysen anwenden, werden orthogonale Fosun- 
gen gewahlt, und es wird zu einem mathematisch definierten Einfachheitskriterium 
rotiert. Das bekannteste ist das Varimax-Kriterium: Pro Faktor wird die Varianz der 
quadrierten Fadungen berechnet; die Summe dieser Varianzen ist das Kriterium, das 
maximiert wird. Die Varianz der quadrierten Fadungen wird groB, wenn sowohl Null- 
Fadungen als auch dem Betrag nach hohe Fadungen vorhanden sind. Ein in diesem 
Sinn pragnantes Fadungsmuster laBt sich im allgemeinen leichter inhaltlich deuten 
als ein Fadungsmuster mit vielen mittleren Fadungen auf alien Variablen. 



Das Problem der Kommunalitdtenschatzung 

Die rechnerische Durchfiihrung der Faktorenanalyse setzt nicht nur die Kenntnis der 
Korrelationen, sondern auch die Kenntnis der Kommunalitaten (zum Begriff der 
Kommunalitat siehe Abschnitt 4. 2. 1.1) voraus. Diese aber ergeben sich erst aus den 
zunachst noch unbekannten Faktorladungen. Es gibt zwar verschiedene Moglichkei- 
ten, die Kommunalitaten schon vorher zu schatzen, doch kann das Ergebnis einer 
Faktorenanalyse nicht nur beziiglich der Hohe der Fadungen, sondern auch beziig- 
lich der Zahl der benotigten Faktoren von der Wahl des Kommunalitaten-Schatzver- 
fahrens abhangen. Dieses Problem, das ebenfalls schon im mathematischen Ansatz 
der Faktorenanalyse steckt, tragt zur weiteren Uneindeutigkeit faktorenanalytischer 
Fosungen bei. 

Die Hauptkomponenten-Analyse (englisch: principal component analysis) unter- 
scheidet sich vom klassischen Ansatz der Faktorenanalyse, wie er in Formel [4.2] an- 
gegeben ist, dadurch, daB keine Uniqueness vorgesehen ist und alle Kommunalitaten 
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gleich Eins sind. Da jeder Test MeBfehler enthalt, ist dieser Ansatz mit einer funktio- 
nalen Interpretation von vomherein nicht vereinbar. Ziel ist hier lediglich, die Viel- 
zahl von Testvariablen auf einige wenige Faktoren zu reduzieren, die die in den Test- 
variablen enthaltene Information moglichst gut reprasentieren. Naheres zur 
Beziehung zwischen klassischer Faktoranalyse und Hauptkomponentenanalyse fin- 
det man bei Snook & Garsuch (1989) und Velicer & Jackson (1990). 



4.2.2 Haupteinwande gegen die Faktorenanalyse als erklarende Theorie 

Bereits im vorangehenden Kapitel wurde deutlich, daB die Ergebnisse der Faktoren- 
analyse mathematisch nicht eindeutig sind, sondem dem Forscher einen erheblichen 
Interpretationsspielraum lassen. Das betrifft sowohl die Anzahl der Faktoren, die je 
nach dem gewahlten Kommunalitaten-Schatzverfahren und je nach Abbruchkriteri- 
um fur die Faktorenextraktion unterschiedlich ausfallen kann, als auch die Festlegung 
der Rotation. Allein diese Unbestimmtheit mag die Faktorenanalyse als “weiche” 
Methode erscheinen lassen, wenig geeignet fur eine stringente Uberpriifung von 
Theorien. 

Die Haupteinwande dagegen, daB man mittels Faktorenanalysen die Grundfahig- 
keiten entdecken und das Zustandekommen von Testleistungen erklaren, also die 
Grundgleichung allgemeinpsychologisch auffassen und funktional interpretieren 
konnte, sind jedoch nicht nur in dieser mathematischen Unterbestimmtheit zu sehen, 
sondern vor allem in einer Reihe von Kritikpunkten, die Ende der Sechzigerjahre von 
verschiedener Seite (Fischer, 1968; 1974; Kallina, 1967; Kalveram, 1965; 1970a, b; 
Merz & Kalveram, 1965) vorgetragen wurden; Die prinzipielle UnUberpriifbarkeit des 
Ansatzes, die Populationsabhangigkeit der Ergebnisse, die Entstehung von Artefak- 
ten durch simultane Uberlagerung oder Selektionseffekte. 

Zur UnUberpriifbarkeit des Ansatzes 

In der Grundgleichung (Gleichung [4.2]) wird angenommen, daB die Testleistung 
aufgrund einer gewichteten Summe von Fahigkeiten zustande kommt, wobei 

(a) die Gewichtung firr alle Personen gleich ist und 

(b) die Fahigkeiten einander beliebig kompensieren konnen. 

Als Ausgangsdaten firr eine Faktorenanalyse stehen aber nur die Korrelationen 
zwischen den Tests zur Verfirgung. Egal wie diese zustande gekommen sind - ob ge- 
maB den in der Grundgleichung ausgedrirckten Annahmen oder ganz anders -,jede 
Korrelationsmatrix kann faktorisiert werden, und es ist dem Ergebnis der Faktoren- 
analyse nicht anzusehen, ob die Annahmen der Grundgleichung zutreffen oder nicht. 

Die Populationsabhangigkeit des Ergebnisses 

Korrelationen beschreiben Merkmalszusammenhange in Populationen. Sie konnen in 
unterschiedlichen Populationen (definiert nach Alter, Geschlecht, Schulbildung usw.) 
unterschiedlich ausfallen. Dementsprechend wird auch das Ergebnis einer Faktoren- 
analyse derselben Tests, sowohl was die Anzahl der Faktoren als auch was die Fadun- 
gen anbelangt, von Population zu Population unterschiedlich sein. Andererseits ge- 
hort aber jede einzelne Person mehreren Populationen zugleich an: eine 13jahrige 
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Oberschiilerin z.B. der Population der 13jahrigen, der Population der Madchen, der 
Population der Oberschiilerinnen. Interpretiert man das Ergebnis einer Faktoren- 
analyse auf individueller Ebene als Aussage dariiber, wieviele und welche Fahigkei- 
ten eine Person fur die Losung des Tests einsetzt, so gerat man sehr bald in Wider- 
spriiche. Derselben Person ware je nachdem, welcher Population man sie gerade 
zurechnet, eine andere Fahigkeitsstruktur zuzuschreiben. 



Artefakte durch simultane Uberlagerung und Selektionseffekte 

Selbst wenn die Testleistung in einer Population bei jedem Einzelindividuum so zu- 
stande kommt, wie in der Grundgleichung angenommen, ist nicht gewahrleistet, daB 
man als Ergebnis der Faktorenanalyse die richtige Zahl von Faktoren und richtigen 
Ladungen erhalt. Das haben Merz & Kalveram (1965) am Beispiel der Differenzie- 
rungshypothese der Intelligenz eindrucksvoll gezeigt: 

GemaB der Differenzierungshypothese andert sich die Intelligenz in der Entwicklung vom 
alteren Kind zum Erwachsenen vor allem qualitativ durch Differenzierung. Dementsprechend 
wird mit dem Alter ein Absinken der Korrelationen zwischen den Tests, eine Zunahme der Zahl 
unabhangiger Fahigkeiten und eine Abnahme der Bedeutung des Generalfaktors erwartet. Merz 
& Kalveram (1965) konnten zeigen, daB dasselbe Ergebnis zu erwarten ist, wenn die Intelli- 
genzstruktur, was Anzahl und Gewicht der zur Losung eingesetzten Faktoren anbelangt, gleich- 
bleibt, auf den einzelnen Altersstufen aber unterschiedlich starke individuelle Differenzen im 
allgemeinen Entwicklungsstand bestehen. Besonders auf den unteren Altersstufen, wo das Ent- 
wicklungstempo noch rasch ist, werden manche Kinder gegeniiber den Gleichaltrigen einen 
alle Fahigkeiten rnehr oder weniger stark betreffenden Entwicklungsvorsprung, andere einen 
Entwicklungsruckstand haben. Wenn alle Testleistungen eines Probanden zugleich (simultan) 
in dieselbe Richtung beeinfluBt werden, steigen die Korrelationen zwischen den Tests. Merz 
& Kalveram (1965) sprechen von “simultaner Uberlagerung" der Korrelationsstruktur durch 
Kovarianz, die auf Unterschiede im Entwicklungsstand zuriickgeht. Im Erwachsenenalter da- 
gegen, wenn die Entwicklung praktisch abgeschlossen ist, spielen diese Entwicklungsunter- 
schiede keine Rolle mehr, und die Korrelationen fallen niedriger aus. Als Ergebnis von ortho- 
gonalen Faktoranalysen erhalt man bei den Jiingeren hohere Kommunalitaten, einen starkeren 
Generalfaktor, geringere Ladungen in den weiteren Faktoren und -je nach Abbruchkriterium 
- eine geringere Gesamtzahl von Faktoren. Insgesamt entsteht also ein Bild, das voll den Er- 
wartungen aufgrund der Differenzierungshypothese gleicht. Weitere Beispiele fur Artefakte 
durch simultane Uberlagerung sind in derselben Arbeit und bei Kalveram (1965) zu finden. 

Eine weitere Quelle von Artefakten, die die Korrelationen zwischen den Tests so 
verandern konnen, daB selbst dann, wenn die Grundgleichung als Annahme iiber den 
LosungsprozeB bei jedem einzelnen Probanden zutrifft, die Faktorenanalyse als Er- 
gebnis weder die richtige Faktorenzahl noch die richtigen Ladungen liefert, sind Se- 
lektionseffekte. Kalveram (1969) demonstriert an einem Beispiel mit Intelligenztest- 
daten, daB schon eine maBige Selektion nach der Punktsumme (Weglassen der 
Probanden mit den hochsten und niedrigsten Werten fur den Gesamt-IQ) deutliche 
Effekte auf die lnterkorrelationen der Tests hat: Extreme Summenwerte kommen 
zustande, wenn Probanden in alien Tests gut oder in alien Tests schlecht abgeschnit- 
ten haben. Ein Weglassen dieser Falle muB zu einer Reduktion der Korrelationen fiih- 
ren. In einem so selegierten Datenmaterial sind dann weder die gemeinsamen Fakto- 
ren voneinander unabhangig, wie das in der orthogonalen Faktorenanalyse 
vorausgesetzt wird, noch auch die spezifischen von dem gemeinsamen (eine Voraus- 
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setzung, die auch in der obliquen Faktorenanalyse gemacht wird), und das Ergebnis 
der Faktorenanalyse wird in die Irre fiihren. 

Dem kann man nun entgegenhalten, daB eine explizite Selektion an den Daten ja in der 
Regel nicht erfolgt. Andererseits kann auch in “naturlichen” Populationen. wie z.B. Schulern 
einer bestimmten Schulart mit mittlerem Anforderungsniveau, faktisch eine Selektion nach dem 
Durchschnittsniveau eines Schulers (Mittel liber seine Fiihigkeiten) stattgefunden hat, indem 
Extremfalle positiver wie negativer Art die Schule haufiger verlassen haben. In diesem Falle 
gelten die obigen Argumente entsprechend. 

Aufgrund der genannten Argumente wurde der Anspruch aufgegeben, die Ergeb- 
nisse von Faktorenanalysen konnten als fur jeden einzelnen Probanden giiltige Aus- 
sage iiber das Zustandekommen von Testleistungen interpretiert werden. 

Ungeachtet dessen bleibt das Problem bestehen, daB man bei der Beurteilung der 
Validitat eines Tests weitgehend auf Korrelationen angewiesen ist und groBere Men- 
gen von Korrelationen konsistent interpretieren mochte. Da die Faktorenanalyse sol- 
che Interpretationsmoglichkeiten aufzeigen kann, wurde sie trotz des Vorwurfs der 
Nicht-Falsifizierbarkeit als Theorie, als heuristisches Instrument auch in Zeiten stark- 
ster Kritik unvermindert zum Einsatz gebracht. Sie wird dann als eine datenexplorie- 
rende Technik aufgefaBt, die mit dem Korrelationsmuster vereinbare Deutungen an- 
bietet, wobei man freilich zunachst nicht weiB, ob eine davon richtig ist und welche. 
Die Entscheidung dariiber, welche Hypothesen weiter verfolgt werden sollen, ist dann 
nur aufgrund zusatzlicher Information aus inhaltlichen Griinden moglich. 

Eine noch entschiedenere Abkehr vom urspriinglichen Anspruch vollzieht man, 
wenn man die Faktoranalyse als eine Methode auffaBt, die fur eine bestimmte Popu- 
lation Dimensionen individueller Unterschiede beschreibt. Da Beschreibungsdimen- 
sionen nur nach Gesichtspunkten der ZweckmaBigkeit, Okonomie und Ergiebigkeit 
zu beurteilen sind, nicht aber nach “wahr” oder “falsch”, stellt sich die Frage nach 
der Falsifizierbarkeit erst gar nicht. DaB bei Populationen, die sich in Art und Aus- 
maB individueller Unterschiede unterscheiden, jeweils andere Beschreibungsdimen- 
sionen in den Vordergrund treten, erscheint dann als selbstverstandlich und sachlich 
begriindet und nicht als Mangel der Methode. Auch das Problem der Artefakte, z.B. 
durch simultane Uberlagerung oder Selektionseffekte, stellt sich erst, wenn man iiber 
die Definition von Beschreibungsdimensionen hinausgeht und nach den Griinden 
fragt, warum z.B. in der einen Altersklasse ein Generalfaktor den groBten Teil der 
Varianz abschopft, in der anderen nicht. Die Beschreibung des Sachverhalts laBt meh- 
rere Deutungen (Differenzierungshypothese, simultane Uberlagerung) zu, zwischen 
denen erst durch zusatzliches Wissen (hier iiber Entwicklungskurven und das AusmaB 
individueller Unterschiede auf den einzelnen Altersstufen) zu entscheiden ist. 

Eine typische Anwendung dieser Art, bei der die Faktorenanalyse von vomherein 
nur mit dem Ziel eingesetzt wird, eine Vielzahl von Variablen auf eine oder einige 
wenige Beschreibungsdimensionen zu reduzieren, die die wesentliche Information 
enthalten, liegt z.B. vor, wenn aus einer Vielzahl von Intelligenztests ein Gesamtwert 
gebildet werden soli, der dann in der weiteren Auswertung anstelle der vielen Einzel- 
tests die Intelligenz reprasentieren soli. Hier liegt es nahe, aus einer Faktorenanalyse 
nach der Hauptkomponentenmethode die erste Hauptkomponente (den Faktor, der die 
meiste Varianz abschopft) zu verwenden. Eine weitere Anwendung, die mit einer 
Deutung der Faktorenanalyse als Methode zur bloB deskriptiven Dimensionsanalyse 
auskommt, ist die Faktorenanalyse von Testitems mit dem Ziel, ltemgruppen zu Ska- 
len zusammenzustellen, die fur diese Population (!) eine hohe innere Konsistenz der 
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Skalen erwarten lassen. Auch bei volliger Riicknahme des Anspruchs auf ein bloBes 
Datenreduktionsverfahren lassen sich also sinnvolle Anwendungen fur die Faktoren- 
analyse finden. 

Eine wesentliche Weiterentwicklung der klassischen Faktorenanalyse, die inzwi- 
schen oft auch als “exploratorische” Faktorenanalyse bezeichnet wird, stellt die kon- 
firmatorische Faktorenanalyse dar. Sie geht von inhaltlichen Hypothesen aus und 
macht falsifizierbare Aussagen tiber die Struktur der Korrelations- oder Kovarianz- 
matrix. Einige Einsatzmoglichkeiten im Rahmen der Testtheorie sollen im folgenden 
an Beispielen dargestellt werden. Dabei wird sich freilich auch zeigen, daB auch eine 
falsifizierbare Theorie, wenn sie auf die Daten paBt, deshalb noch lange nicht die ein- 
zige mogliche Erklarung sein braucht. Wenn die Vorhersagen der Theorie sehr strikt 
sind, wird es allerdings sehr schwer werden, plausible Altemativerklarungen fur die- 
selben Daten zu finden. 



4.2.3 Einsatzmoglichkeiten und Grenzen der konfirmatorischen Faktorenanalyse 

In der klassischen Faktorenanalyse braucht der Forscher kein Vorwissen tiber die 
Anzahl der Faktoren oder tiber das zu erwartende Ladungsmuster zu besitzen. Es 
werden so lange Faktoren extrahiert, bis die Korrelationsmatrix aus den Faktorladun- 
gen hinreichend genau reproduzierbar ist. Es wird dann durch Rotation (nach mathe- 
matischen oder inhaltlichen Kriterien) eine gut interpretierbare Losung gesucht. In der 
konfirmatorischen Faktorenanalyse, die - ausgehend von den Arbeiten von loreskog 
(1967; 1969) -vor allem in den siebziger lahren entwickelt wurde, muB der Forscher 
schon vor Eintritt in das Verfahren eine Hypothese tiber die Zahl der Faktoren und 
das Ladungsmuster haben. Bei der Hypothese tiber das Ladungsmuster handelt es sich 
in der Regel um Annahmen dariiber, daB einzelne Tests auf bestimmten Faktoren nicht 
laden (vorgeschriebene Null-Ladungen), oder um Annahmen iiber Gleichheit be- 
stimmter Ladungen (Gleichheits-Restriktionen). Dariiber hinaus konnen iiber die 
Korrelationen der Faktorwerte einschrankende Annahmen gemacht werden (z.B. daB 
alle oder auch nur bestimmte Faktoren unkorreliert sind) und beziiglich der Residuen 
(testspezifische Faktoren und MeBfehler) Festlegungen getroffen werden (z.B. 
Gleichheit der Residualvarianzen bei bestimmten Tests). Insgesamt miissen die ge- 
setzten Restriktionen ausreichen, um die Losung mathematisch eindeutig zu machen, 
insbesondere also auch die Rotation festzulegen. 

Ausgangsdaten konnen Korrelations- oder Kovarianzmatrizen sein. Die Parame- 
ter des Modells (Faktorladungen, Korrelationen der Faktoren, Residualvarianzen) 
werden dann so geschatzt, daB sie (a) den durch die Hypothese gesetzten Restriktio- 
nen geniigen und (b) die empirischen Korrelationen (oder Kovarianzen) zwischen den 
Tests so gut, wie unter den gesetzten Restriktionen moglich, reproduzieren. Anhand 
der erreichten Anpassung (Ubereinstimmung der aus den Ladungen reproduzierten 
Korrelationen mit den aus den Daten errechneten) wird beurteilt, ob die Hypothese 
mit den Daten vereinbar ist oder nicht. 

Zur Schatzung der Parameter und zur Beurteilung der Anpassung stehen eine Rei- 
he theoretisch unterschiedlich begriindeter Verfahren zur Verfiigung (eine neuere 
Ubersicht findet man bei Anderson & Gerbing, 1988). Das am starksten verbreitete 
Computer-Programm diirfte nach wie vor das Programm LISREL (zur Zeit neueste 
Version: LISREL 7, Joreskog & Sorbom, 1989) sein, an zweiter Stelle diirfte das Pro- 
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gramm EQS (Bentler, 1985) stehen. Beide Programme umfassen einen weiten Bereich 
von linearen Strukturgleichungsmodellen und enthalten die konfirmatorische Fakto- 
renanalyse als Spezialfall. 

Im folgenden soil an vier unterschiedlichen Fragestellungen gezeigt werden, wie 
Problemstellungen aus der Testtheorie mit Hilfe konfirmatorischer Faktorenanalysen 
bearbeitet werden konnen. 



Beispiel 1 : Uberpriifung der Parallelitat von Tests 

Zwei oder mehr Tests sind parallel im Sinne der klassischen Testtheorie, wenn sie die- 
selben wahren Werte und gleiche MeBfehlervarianzen haben. Daraus folgt u.a., daB 
ihre Varianzen gleich sind, daB die Kovarianzen der Parallelfomien untereinander gleich 
sind und daB die Kovarianzen der Parallelformen zu einem beliebigen AuBenkriteri- 
um gleich sind. Diese Struktur der Kovarianzmatrix kann in einer konfirmatorischen 
Faktorenanalyse iiberpriift werden. Die Parallelitatshypothese wird dabei ausge- 
driickt, indem fur die Tests festgelegt wird, (a) daB sie auf einem gemeinsamen Fak- 
tor laden, (b) daB die Fadungen auf diesem Faktor gleich sind und (c) daB die Resi- 
dualvarianzen gleich sind. Abbildung 4.3 zeigt ein hypothetisches Beispiel: 




Abbildung 4.3: Konfirmatorische Faktoranalyse zur Priifung der Parallelitat der Tests Xi, 

X 2 , X 3 und Y,, Y 2 . Parameterspezifikation und Restriktionen s. Tabelle 4.2 

Die Tests X h X 2 , X 3 sollen drei Parallelformen eines Wortschatztests sein, die Tests Y] 
und Y 2 zwei Parallelformen eines Rechentests. Der Anted, den Faktor I an der Varianz 
eines Wortschatztests ausmacht, entspricht der wahren Varianz; die Restvarianz ist die 
Fehlervarianz. Entsprechendes gilt fur Faktor II und die beiden Rechentests. Die Kor- 
relation der Faktoren I und II ist die Korrelation der wahren Werte von Wortschatztest 
und Rechentest. Will man das Modell priifen, so hat man die Parametermatrizen zu 
spezifizieren und die Restriktionen zu setzen, wie in Tabelle 4.2 angegeben. 

Wenn das Modell nicht paBt, kann eine schwachere Hypothese gepriift werden: 
Beispielsweise konnten die Tests X h X 2 , X 3 dasselbe messen, aber mit unterschiedli- 
cher Reliabilitat. Will man unterschiedliche wahre Varianzen zulassen, so ist die 
Gleichheitsrestriktion fur Faktor I im Fadungsmuster aufzuheben; will man zusatz- 
lich unterschiedliche Fehlervarianzen zulassen, so entfallt die entsprechende Restrik- 
tion beztiglich der Residualvarianzen. 

Beispiele, in denen verschieden streng gefaBte Modelle an realen Daten (Intelli- 
genz- und Schulleistungstest) vergleichend gepriift wurden, findet man in der inzwi- 
schen als klassisch anzusehenden Arbeit von Joreskog (1978). 
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Tabelle 4.2: Parameterspezifikation zu dem in Abbildung 4.3 dargestellten Modell einer kon- 
firmatorischen Faktoranalyse zur Prufung der Parallelitat der Tests X h X 2 , X 3 und Y[, Y 2 . 





Ladungsmatrix 

Faktoren 

I 


II 


Kovarianzmatrix 
der Faktoren 
I 


Tests 

x, 


a n 


0 


II 1 


x 2 


a 21 


0 


II r ul 


X 3 


a 31 


0 




Y, 


0 


a 42 




y 2 


0 


a 52 





Gleichheitsrestriktionen fiir die 
(a) Ladungen: 

a tt = a 21 - a 31 
a 42 - a 52 



(b) Fehlervarianzen: 
a 2 (Fxi) = o 2 (Fx 2) = a 2 (Fxj) 
G 2 (Fyi)= C 2 (Fy 2 ) 



Beispiel 2: Uberpriifung von Hypothesen iiber die Gleichheit von Ladungsmustem 
in verschiedenen Populationen 

Wenn man die Anwendungen der klassischen Faktorenanalyse iiberblickt, so findet 
man ganz iiberwiegend orthogonale Faktorenlosungen. Werden analoge Analysen fur 
unterschiedliche Personenstichproben durchgefuhrt, so wird in der Regel jede Fakto- 
renanalyse fur sich gerechnet und die Ergebnisse hinterher vergleichend diskutiert. Me- 
thoden zur Ahnlichkeitsrotation wurden zwar vorgeschlagen (z.B. Fischer & Roppert, 
1964), aber kaum angewendet. 

Andererseits ist es alles andere als plausibel anzunehmen, die Faktoren seien in den 
unterschiedlichsten Populationen immer wieder unkorreliert. Wenn die Faktoren in 
den Populationen unterschiedlich korreliert sind, wird eine von der Methode her ge- 
setzte Orthogonalitatsrestriktion zu von Population zu Population unterschiedlichen 
Faktorlosungen fiihren - auch dann, wenn die Tests in alien Populationen dasselbe 
messen. 

Ein Vorteil des Programms LISREL (Joreskog & Sorbom, 1989) besteht darin, daB 
es die Moglichkeit bietet, an mehrere Datensatze simultan eine konfirmatorische Fak- 
torenanalyse anzupassen. Dabei kann festgelegt werden, daB bestimmte Parameter 
(z.B. Faktorladungen) fiir alle Datensatze gleich sein sollen, wahrend andere (z.B. 
Varianzen und Kovarianzen der Faktoren) von Stichprobe zu Stichprobe variieren 
konnen. Man kann also z.B. der Reihe nach folgende, zunehmend restriktive Model- 
le testen: 
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1. Dasselbe Ladungsmuster (Zuordnung der Tests zu den Faktoren und entsprechend 
vorgeschriebene Null-Ladungen) paBt in alien Populationen. Die Ladungen konnen 
aber in den einzelnen Populationen unterschiedlich hoch sein und die Faktoren kon- 
nen in den einzelnen Populationen unterschiedlich korreliert sein. 

2. Ladungsmuster und Ladungen miissen in alien Populationen iibereinstimmen, Fak- 
torvarianzen und Faktorkorrelationen konnen aber von Population zu Population un- 
terschiedlich sein. 

3. Die Losungen stimmen vollig iiberein, d.h. die Korrelationsmatrix ist in alien Po- 
pulationen gleich. 

Ein Beispiel fur eine solche schrittweise Anpassung einer gemeinsamen faktorana- 
lytischen Losung fur 5 Datensatze findet man bei Schmidt (1983). Er untersuchte an 
5 Altersgruppen die faktorielle Struktur eines Fragebogens iiber Arbeitsorientierun- 
gen. Angenommen wurde schlieBlich ein Modell mit 4 Faktoren und derselben Zu- 
ordnung der Items zu den Faktoren (gleiches Ladungsmuster), wobei aber die Hohe 
der Ladungen in den einzelnen Altersgruppen unterschiedlich war. Ein komplexeres 
Beispiel, bei dem 6 Modellvarianten verglichen wurden, findet man bei Joreskog & 
Sorbom (1985, Kapitel V 3). Stelzl (1987) illustriert an einem Beispiel mit hypothe- 
tischen Daten die Vorteile einer simultan konfirmatorischen Faktorenanalyse iiber alle 
Datensatze gegeniiber getrennten klassischen Faktorenanalysen mit Rotation zur or- 
thogonalen oder auch nicht-orthogonalen Einfachstruktur. 

Beispiel 3: Die Zerlegung der wahren Varianz in Konsistenz und Spezifitat nach 
Steyer (1987) 

Steyer (1987) und Majcen, Steyer & Schwenkmezger (1988) schlagen eine konfirma- 
torische Faktorenanalyse zweiter Ordnung vor, um “Spezifitat” und “Konsistenz” als 
Anteile der wahren Varianz eines Tests zu unterscheiden. Dazu wird der Test in zwei 
Halften geteilt und beide Halften den Probanden zu mehreren “MeBgelegenheiten”, 
z.B. Zeitpunkten im Abstand von jeweils mehreren Wochen, vorgelegt. 

Die Kovarianzmatrix der Daten wird dann nach dem in Abbildung 4.4 dargestellten 
Modell analysiert. Den beiden Testhalften zum selben Zeitpunkt wird jeweils ein ge- 
meinsamer Faktor erster Ordnung unterstellt. Der Varianzanteil dieses Faktors an der 
Testvarianz ist die wahre Varianz des Tests. Den Kovarianzen zwischen den Zeitpunk- 
ten wird dann ein Generalfaktor als Faktor zweiter Ordnung unterstellt. Den Varianz- 
anteil eines Tests, der durch diesen Generalfaktor erklart wird, nennt Steyer “Konsi- 
stenz”, den Anted an der wahren Varianz, der nicht durch den Generalfaktor erklart 
wird, “Spezifitat”. Den Generalfaktor interpretiert er als “Personfaktor” oder “Trait”, 
die Spezifitat als “Situations-” oder “Person-Situations-Interaktionsvarianz”. Zum 
selben MeBzeitpunkt konnen sich die einzelnen Personen in unterschiedlichen Situa- 
tionen befinden, z.B. ausgeschlafen oder verkatert sein (Situationsvarianz) und auf 
diese Situationen personspezifisch reagieren (Person-Situations-Interaktionsvarianz). 
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Abbildung 4.4: Konfirmatorische Faktorenanalyse zweiter Ordnung zur Unterscheidung 
von Konsistenz und Spezifitat im Sinn von Steyer (1987) 




Ein Test, bestehend aus den Halften A und B, wird zu drei Zeitpunkten vorgegeben. Seine wah- 
re Varianz besteht aus einem Anteil, der auf den Generalfaktor zweiter Ordnung zuriickgeht, 
und einem Anteil, der flir den jeweiligen Zeitpunkt spezifisch ist. 



Beispiel 4: Die Multitrait-Multimethod-Matrix 

Campbell & Fiske (1959) zeigten, wie man anhand einer sogenannten “Multitrait- 
Multimethod-Matrix’' konvergente und diskriminante Validity psychologischer Mes- 
sungen tiberprufen kann: Dazu miissen mehrere Eigenschaften (= traits), z.B. Popu- 
larity und Expansivitat eines Schulers, mit mehreren Methoden (Selbstauskunft, 
Rating durch andere, Verhalten in einer Gruppensituation, Rollenspiel) erfaBt worden 
sein und die Korrelationen aller Messungen (hier: 2 Eigenschaften und 4 Methoden 
= 8 Messungen) vorliegen. Diese Korrelationsmatrix heiBt Multitrait-Multimethod- 
Matrix und soli eine bestimmte Struktur aufweisen: 

Auch wenn man bei psychologischen MaBen immer davon ausgehen muB, daB nur 
ein Teil der Varianz auf die zu messende Eigenschaft zuriickgeht und ein Teil metho- 
denspezifisch ist, so wird man von einem guten MaB doch verlangen, daB der metho- 
denspezifische Anteil gering ist. Dementsprechend sollten die Korrelationen zwischen 
MaBen, die dieselbe Eigenschaft mit unterschiedlichen Methoden erfassen, deutlich 
hoher ausfallen (konvergente Validity) als die Korrelationen zwischen MaBen, die 
dieselbe Methode verwenden, aber unterschiedliche Eigenschaften erfassen (niedri- 
ge Korrelationen unterschiedlicher Eigenschaften = diskriminante Validity). 

Bei me hr als zwei Eigenschaften kann man auch das Muster der Korrelationen der 
Eigenschaften untereinander betrachten. Wenn die Eigenschaften mit derselben Me- 
thode erfaBt wurden (alle durch Selbstauskunft oder alle durch Fremdbeurteilung), 
sollte sich jeweils dasselbe Korrelationsmuster ergeben, egal um welche Methode es 
sich handelt. 

Die von Campbell & Fiske (1959) angestellten Uberlegungen, auf die eine lange- 
re Diskussion folgte (dargestellt bei Schmitt et ah, 1977) lassen sich gut in eine kon- 
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firmatorische Faktorenanalyse iibertragen. Jeder Eigenschaft und jeder Methode ent- 
spricht ein Faktor, wobei jedes MaB hier auf einem Eigenschafts- und einem Metho- 
denfaktor ladt. Diese Ladungen sollen bestimmt werden, alle anderen sind Null. Die 
Eigenschaftsfaktoren konnen untereinander korreliert sein, sollen aber von den Me- 
thodenfaktoren unabhangig sein. Beispiele solcher Anwendungen findet man u.a. bei 
Kenny (1976) Schmitt, Coyle & Saari (1977) Schwarzer (1983), Ostendorf et al. 
(1986). Eines der von Schwarzer (1983) vorgestellten Beispiele wird im folgenden 
Abschnitt dargestellt und diskutiert. 



Grenzen der konfirmatorischen Faktorenanalyse: 

Der Haupteinwand gegen die klassische Faktorenanalyse als Mittel zur Priifung von 
Theorien liber das Zustandekommen von Testleistungen liegt in der Nicht-Falsifizier- 
barkeit des theoretischen Ansatzes: Das Rechenverfahren fiihrt immer zu einer Fak- 
torlosung - auch dann, wenn die Testleistungen in Wirklichkeit ganz anders zustande 
kommen. 

Die konfirmatorische Faktorenanalyse bringt in diesem Punkt eine Verbesserung: 
Wenn die Hypothese liber das Ladungsmuster sehr restriktiv ist, so muB die Korrela- 
tionsmatrix eine ziemlich genau festgelegte Struktur haben, um mit der Hypothese 
vereinbar zu sein. Hat sie diese Struktur nicht, so wird das Modell verworfen. 

Trotzdem bleiben grundlegende Probleme bestehen. Wenn das Modell verworfen 
wird, weil es nicht auf die Daten paBt, so kann das daran liegen, daB grundlegende 
Annahmen falsch sind. Es kann aber auch daran liegen, daB die Korrelationen z.B. 
durch Selektionseffekte (vgl. Kapitel 4.2.2) verzerrt sind. Wenn es z.B. durch eine 
Selektion nach der Summe aller Faktorwerte zu negativen Korrelationen auch der 
Residuen kommt, so wird ein ansonsten richtiges Modell mit unabhangigen Residu- 
en verworfen (korrelierende Residuen sind bei konfirmatorischen Faktorenanalysen 
zwar nicht grundsatzlich unzulassig, fiihren aber sehr bald zu trivialen oder auch zu 
nicht identifizierbaren, d.i. nicht schatzbaren Modellen). 

Wenn ein Modell nicht paBt, wird es meist nicht pauschal verworfen, sondern man 
sucht nach Korrekturmoglichkeiten und modifiziert einige weniger wichtige Annah- 
men, bis der Modelltest keine signifikanten Abweichungen mehr ausweist. Dabei lauft 
man Gefahr, das Modell im nachhinein an zufallige Eigenschaften der Stichprobe 
anzupassen. Eine Signifikanzpriifung des modifizierten Modells erfordert in jedem 
Fall einen neuen, unabhangigen Datensatz. Wenn auf der anderen Seite ein Modell 
gut an die Daten angepaBt ist, so schlieBt das nicht aus, daB andere, ebenfalls plausi- 
ble Modelle ebensogut auf dieselben Daten passen. Auch zu einem hoch restriktiven 
Modell wie einer Multitrait-Multimethod-Losung kann es Altemativen geben. Das 
soli durch eine Reanalyse eines von Schwarzer (1983) vorgestellten Beispiels demon- 
striert werden. Schwarzer (1983) verwendete die Daten von Winne & Marx (1981, 
zit. nach Schwarzer, 1983), um eine Multitrait-Multimethod-Analyse zu demonstrie- 
ren. Winne & Marx legten 181 Vpn drei Fragebogen zum Selbstbild vor. Jeder der 
drei Fragebogen (A = Sears’ Self-Concept Inventory, B = eigener Fragebogen mit 
Selbsteinstufungen auf Rating-Skalen, C = eigener Fragebogen mit Vergleichen zu 
anderen Studenten) enthalt eine Skala zu denselben drei Aspekten des Selbstbildes: 
“Academic”, “Physical” und “Social Self-Concept”, bezeichnet als Traits 1,2,3. Ta- 
belle 4.3 gibt die Korrelationen zwischen den 3 mal 3 Fragebogenskalen an. 




102 



4. Multivariate Verfahren im Dienst der Testtheorie 



Tabelle 4.3: Korrelationen zwischen 3 mal 3 Fragebogenskalen zum Selbstbild. Daten von 
Winne & Marx (1981) zitiert nach Schwarzer (1983). 





A1 


A2 


A3 


B1 


B2 


B3 


Cl 


C2 C3 


A1 


1.00 
















A2 


.31 


1 














A3 


.48 


.54 


1 












B1 


.49 


-.03 


-.03 


1 . 










B2 


.22 


.77 


.33 


.14 


1 . 








B3 


.11 


.35 


.37 


.06 


.54 


1 . 






Cl 


.61 


-.01 


.10 


.60 


-.02 


-.05 


1. 




C2 


.23 


.13 


.42 


-.02 


.70 


.39 


.14 


1. 


C3 


.22 


.44 


.55 


-.07 


.40 


.48 


.08 


.56 1. 



A = Sears’ Self-Concept Inventory, B = Selbsteinstufung auf Rating-Skalen, C = Selbstein- 
stufung im Vergleich zu anderen Studenten. 

1 = Academic 2 = Physical 3 = Social Self-Concept 

Schwarzer paBte an diese Korrelationsmatrix ein Modell mit 3 Trait-Faktoren und 
3 Methoden-Faktoren an. Dabei lieB er Korrelationen zwischen den Trait-Faktoren 
untereinander und zwischen den Methoden-Faktoren untereinander, nicht aber zwi- 
schen Trait- und Methoden-Faktoren zu. Das Ergebnis ist in Tabelle 4.4 angegeben. 

Dieses Modell erwies sich als den Daten gut angepaBt (der Chi-Quadrat-Test fiir 
die Signiftkanz der Abweichungen vom Modell ergab einen Chi-Quadrat-Wert von 
10.74 bei 12 Freiheitsgraden und war nicht signifikant). 

Unter inhaltlichen Gesichtspunkten fallen vor allem die negativen Korrelationen 
des Trait-Faktors “Academic Self-Concept” zu den Trait-Faktoren “Physical” und 
“Social Self-Concept” auf. Sie legen eine Interpretation im Sinne kompensatorischer 
Bestrebungen nahe und sind umso bemerkenswerter, als bei jedem der drei Fragebo- 
gen die Korrelationen zwischen den drei Aspekten des Selbstbildes positiv sind. 
Schwarzer (1983, S.226) bemerkt dazu: “Only the structural equation approach re- 
veals that true interrelationships between underlying sources of covariation”. 

Auf der Suche nach einer Altemativerklarung betrachten wir nochmals die Korre- 
lationen in Tabelle 4.3. Es fallt auf, daB sich die Korrelationsmuster der drei Traits in 
den verschiedenen Fragebogenarten nahezu mustergiiltig wiederholen, daB dabei nur 
Skala A1 aus dem Rahmen fallt, indem sie generell zu hoch korreliert. Deshalb wur- 
de eine Modell-Variante konzipiert, in der A1 keine reine Academic Self-Concept- 
Skala ist, sondern die anderen beiden Aspekte mitenthalt. Es wurden deshalb Neben- 
ladungen der Variablen A1 auch auf den Trait-Faktoren 2 und 3 zugelassen. Als 
Ausgleich fiir die zusatzlichen 2 Parameter wurden die zuvor negativen Korrelatio- 
nen des Trait-Faktors “Academic Self-Concept” zu den beiden anderen Trait-Fakto- 
ren auf Null fixiert. Das Ergebnis ist in Tabelle 4.5 angegeben. 
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T a bel 1 e 4.4: Schwarzers (1983) Multitrait-Multimethod Losung fur die Daten aus Tabelle 4.3 


Matrix der Faktorladungen 
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Tabelle 4.5: Ergebnis 
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Auch dieses Modell ist gut an die Daten angepaBt. Es weist bei ebenfalls 12 Frei- 
heitsgraden sogar noch einen etwas kleineren Chi-Quadrat-Wert aus. 

Gegeniiber Schwarzers Losung fallen die Ladungen in den Trait-Faktoren hoher, 
in den Methodenfaktoren niedriger aus und fiihren damit zu einem insgesamt giinsti- 
geren Urteil liber die Validitat der Fragebogen. Fur die inhaltliche Interpretation we- 
sentlich ist der Wegfall der negativen Korrelationen bei den Trait-Faktoren, so daB 
kein AnlaB zur Annahme kornpensatorischer Mechanismen (etwa entsprechend dem 
Klischee von den dummen Schonen und haBlichen Intellektuellen) besteht. 

Mit diesem Beispiel sollte deutlich gemacht werden, daB auch mit einer konfirma- 
torischen Faktorenanalyse die Modellgeltung nicht bewiesen werden kann, sondern 
Interpretationsmoglichkeiten aufgezeigt werden. Bei hoch restriktiven Modellen wird 
es allerdings sehr schwer sein, gleichwertige Altemativen zu finden und damit die In- 
terpretation in Frage zu stellen. Damit ist die Beweiskraft einer konfirmatorischen 
Faktorenanalyse zwar auch begrenzt, aber doch wesentlich besser als die einer klas- 
sischen Faktorenanalyse, wo Alternativlosungen routinemaBig hergestellt werden 
konnen. 



Zusammenfassung 

Im klassischen faktorenanalytischen Modell mit mehreren gemeinsamen Faktoren ge- 
hen individuelle Unterschiede in den Testwerten auf individuelle Unterschiede in 
mehreren latenten Dimensionen (= Faktoren, z.B. Fahigkeiten) zuriick. Der Testwert 
wird als gewichtete Summe der gemeinsamen Faktoren plus einem fur den jeweili- 
gen Test spezifischen Anted gedacht. Aufgrund der Korrelationen zwischen den Tests 
als Ausgangsdaten sollen die gemeinsamen Faktoren und ihr relatives Gewicht fur die 
einzelnen Tests (= die Fadungen) bestimmt werden. 

Neben der mathematischen Uneindeutigkeit der Fosung (Rotationsproblem, Kom- 
munalitaten-Schatzproblem) haben vor allem eine Reihe weiterer Kritikpunkte, die 
Ende der Sechzigerjahre vorgetragen wurden (Uniiberprufbarkeit des theoretischen 
Ansatzes, Populationsabhangigkeit der Ergebnisse, Artefakte durch Selektion und si- 
multane Uberlagerung), dazu gefuhrt, daB der Anspruch, Ergebnisse von Faktorenana- 
lysen konnten als funktional erklarende Theorien iiber das Zustandekommen der 
Testwerte interpretiert werden, aufgegeben wurde. Unter Zuriicknahme des urspriing- 
lichen Anspruchs, wird die Faktorenanalyse nunmehr als Daten explorierendes, Hy- 
pothesen generierendes Verfahren eingesetzt, oder als Methode zur Definition von Be- 
schreibungsdimensionen, oder als bloBes Datenreduktionsverfahren. 

Die konfirmatorische Faktorenanalyse unterscheidet sich von der klassischen da- 
durch, daB der Forscher bereits Hypothesen liber die Zahl der Faktoren, das Fadungs- 
muster, die Korrelationen der Faktoren usw. haben muB. Wenn die Hypothesen restrik- 
tiv genug sind, kann ihre Vereinbarkeit mit der empirischen Korrelations- oder 
Kovarianzmatrix gepriift werden. Dazu wurden vier Beispiele aus dem Bereich der 
Testtheorie dargestellt. Wie an Beispiel 4 gezeigt, schlieBt aber auch ein gut angepaB- 
tes, hoch restriktives Modell nicht aus, daB fur dieselben Korrelationen plausible Al- 
ternativerklarungen gefunden werden. 
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Einfuhrende Literatur: 

Bortz, J. (1989). Statistik fur Sozialwissenschaftler. (3. Aufl.). Kapitel 15: Faktoren- 
analyse. Berlin: Springer. 



Weiterfuhrende Literatur: 

Pawlik, K. (1971). Dimensionen des Verhaltens. (2. Aufl.). Bern: Huber. 

Revenstorf, D. (1980). Faktorenanalyse. Stuttgart: Kohlhammer. 

McDonald, R.P. (1985). Factoranalysis and related methods. Hillsdale: Erlbaum Ass. 
Bernstein, I.H. (1987). Applied multivariate analysis. Chapter 7: Confirmatory factor 
analysis (pp. 198-245). New York: Springer. 

Ein inhaltliches Beispiel, bei dem die einzelnen Schritte bei der Planting einer 
Faktorenanalyse detailliert dargestellt sind, findet man bei: 

Rost, D.H.( 1987). Leseverstandnis oder Leseverstandnisse? Zeitschrift fiir Pddago- 
gische Psychologie, 1, 175-196. 
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4.3 Einsatzmoglichkeiten und Grenzen der Clusteranalyse 



1. Wozu dienen Clusteranalysen? 

2. Welche Ausgangsdaten werden benotigt ? 

3. Wie konnen mit Hilfe von Clusteranalysen Klassifikationen erstellt werden? 



Vorstrukturierende Lesehilfe 

Ziel von Clusteranalysen ist es, eine Klassifikation von Objekten zu erstellen, wobei 
Objekte, die in dieselbe Klasse eingeordnet werden, einander moglichst ahnlich, die 
Klassen untereinander aber moglichst unahnlich sein sollen. Solche Aufgabenstellun- 
gen kommen in verschiedensten Wissenschaftsbereichen vor (u.a. Psychologie, Bio- 
logie, aber auch z.B. Bibliothekswissenschaften), woraus sich eine Vielfalt sich iiber- 
schneidender Ansatze und Verfahren entwickelt hat, die sich ihrerseits nicht leicht in 
Klassen ordnen laBt. Im folgenden wird weder ein vollstandiger Uberblick angestrebt, 
noch werden einzelne Verfahren im Detail dargestellt. Es sollen lediglich die Grund- 
gedanken skizziert und Hinweise auf mogliche Anwendungen gegeben werden. Da- 
bei kommen im Zusammenhang mit psychologisch diagnostischen Fragestellungen 
vor ahem zwei Anwendungsbereiche in Betracht: 

(a) die Clusteranalyse von Personen als “Objekten”, mit dem Ziel, moglichst ho- 
mogene Personengruppen zu bilden (z.B. um in der Folge zu untersuchen, ob sich 
diese Gruppen in ihrer Reaktion auf eine Behandlung unterscheiden) und 

(b) die Clusteranalyse von Testaufgaben, um homogene Aufgabengruppen zu fin- 
den, aus denen sich Testskalen entwickeln lassen. 

Ausgangspunkt der Clusteranalyse sind AhnlichkeitsmaBe. Will man z.B. Perso- 
nen zu Clustem zusammenfassen, so hat man zunachst die Ahnlichkeit (oder Unahn- 
lichkeit, Distanz) von jeder Person zu jeder anderen festzustellen. Dazu kommen 
direkte Ahnlichkeitsbeurteilungen in Betracht (so konnte z.B. der Fehrer die Ahnlich- 
keit jedes Schulers zu jedem anderen auf einer Punkteskala beurteilen) oder auch Ahn- 
lichkeitswerte, die aufgrund von Merkmalsauspragungen errechnet werden. Sollen 
z.B. Schuler nach Ahnlichkeit ihrer Interessen gruppiert werden, so konnte das Aus- 
gangsmaterial ein standardisierter Interessentest mit zehn Unterskalen fur zehn ver- 
schiedene Interessenrichtungen sein. Die Unahnlichkeit zwischen zwei Schiilem 
konnte dann z.B. als quadrierte euklidische Distanz bestimmt werden: Auf jeder In- 
teressenskala wird die Differenz bestimmt, quadriert und liber alle Skalen aufaddiert. 
Euklidische Distanzen haben zwar den Vorteil einer anschaulichen geometrischen Be- 
deutung, doch kommen andere DistanzmaBe oft ebensogut in Betracht: Wenn man 
z.B. die Differenzen nicht quadriert, sondem einfach dem Betrag nach aufaddiert, so 
entspricht das dem sog. City-block-Abstand. Beziiglich weiterer DistanzmaBe und der 
Definition von AhnlichkeitsmaBen aufgrund von nur rangskalierten oder nominal- 
skalierten Merkmalen sei auf die am Ende des Kapitels genannten Lehrbiicher ver- 
wiesen. 

Ist die Ahnlichkeit (bzw. Distanz) von jeder Person zu jeder anderen, allgemeiner 
von jedem Objekt zu jedem anderen, bestimmt, so soil als Nachstes die bestmogliche 
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Gruppenaufteilung gefunden werden. Dazu stehen verschiedene Verfahren zur Ver- 
fiigung: Bei hierarchisch agglutinierenden Clusterverfahren werden, ausgehend von 
der maximalen Anzahl von Clustern (d.h. jede Person wird als Cluster der GroBe Eins 
aufgefaBt), Cluster schrittweise zusammengefaBt. Es werden zunachst die beiden Per- 
sonen, die zueinander den geringsten Abstand haben, zu einem Cluster der GroBe 
Zwei zusammengefaBt, dann wird erneut gesucht, welche beiden Cluster zueinander 
den geringsten Abstand haben und diese beiden zusammengefaBt, bis schlieBlich nur 
noch zwei Cluster vorhanden sind, die im letzten Schritt in eines zusammengefaBt 
werden. Bei jedem Schritt dieser Prozedur muB das Distanzkriterium (zulassige Di- 
stanz zwischen zwei Clustern, die zusammengefaBt werden sollen) ein Stuck gelok- 
kert werden, und man bricht die Prozedur ab (bzw. entscheidet sich im nachhinein fur 
diese Aufteilung), wenn eine weitere Zusammenfassung einen besonders groBen 
Schritt in der Lockerung des Distanzkriteriums erfordern wurde. 

Dieser Grundgedanke hierarchisch agglutinierender Clusterverfahren ist in einer 
Vielfalt von Algorithmen realisiert, die sich u.a. darin unterscheiden, wie der Abstand 
zwischen Clustern gemessen wird. Zunachst ist ja nur der Abstand zwischen Einzel- 
objekten, z.B. Einzelpersonen, definiert. Der Abstand zwischen zwei Clustern kann 
z.B. definiert werden 

(a) als der kleinste Abstand zwischen einer Person aus Cluster A und einer Person 
aus Cluster B (Single linkage), oder 

(b) als der groBte Abstand zwischen zwei Personen aus A und B (complete linka- 
ge), oder auch 

(c) als der mittlere Abstand (arithmetisches Mittel oder Median) aller Abstande 
zwischen Personen aus A und B. 

Diesen Definitionen ist gemeinsam, daB sie alle aus den Abstanden zwischen den 
Einzelobjekten (hier: Personen) errechnet werden und nicht auf die Merkmalsauspra- 
gungen zuriickgreifen. Sie sind deshalb auch dann anwendbar, wenn die Ausgangs- 
daten beispielsweise globale Ahnlichkeitsurteile iiber Personen sind oder, wie bei der 
Clusteranalyse von Items, Korrelationen als AhnlichkeitsmaBe verwendet werden. 

Wenn die Ahnlichkeit zwischen den Einzelobjekten aus Merkmalsauspragungen 
errechnet wurde, z.B. aufgrund von Testwerten als euklidische Distanz, so liegt es 
nahe, ein Cluster durch die durchschnittliche Merkmalsauspragung der darin enthal- 
tenen Objekte zu kennzeichnen (das Zentroid ) und die Abstande zwischen Clustern 
als Abstand zwischen den Zentroiden zu bestimmen. Die Heterogenitat innerhalb ei- 
nes Clusters kann auch als Merkmalsvarianz (Summe der Varianzen der einzelnen 
Merkmale oder multivariate VarianzmaBe) definiert werden, und als Kriterium einer 
guten Clusterlosung kann definiert werden, daB die Varianz innerhalb der Cluster im 
Vergleich zur Varianz zwischen den Clustern (errechnet aus den Abstanden zwischen 
den Clustermittelwerten) moglichst gering sein soil. 

Neben den hierarchisch agglutinierenden Algorithmen kommen auch nicht hierar- 
chische Verfahren zum Einsatz. Dabei wird die Clusterzahl als bekannt vorausgesetzt 
und, ausgehend von einer groben Naherungslosung, jedes Element probeweise in ein 
anderes Cluster verschoben, um zu sehen, ob sich eine Verbesserung der Clusterlo- 
sung im Sinne eines der oben genannten Kriterien ergibt. Durch das Verschieben ein- 
zelner Elemente ergibt sich eine Neudefinition der Cluster, die Abstande werden neu 
berechnet und es wird mit dem Verschieben fortgefahren, bis sich keine weitere Ver- 
besserung mehr ergibt. Vielfach werden auch beide Typen von Algorithmen mitein- 
ander verbunden, indem zunachst mit hierarchisch agglutinierenden Verfahren eine 
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Ausgangslosung gesucht und die Clusterzahl festgesetzt wird und danach mit nicht 
hierarchischen Verfahren noch nach Verbesserungsmoglichkeiten gesucht wird. 

Fiir Forschungsvorhaben im Bereich der padagogisch-psychologischen Diagnostik 
kommen, wie schon eingangs erwahnt, vor allem zwei Einsatzbereiche fiir Clustera- 
nalysen in Betracht: die Clusteranalyse von Personen mit dem Ziel, homogene Per- 
sonengruppen zu definieren, z.B. um sie als Kriteriumsgruppen bei einer Testvalidie- 
rung zu verwenden. Mittels Clusteranalyse gefundene Kategorisierungen konnten 
aber auch als unabhangige Variable in Versuchsplanen herausgezogen werden, bei 
denen es darum geht, Behandlungseffekte weiter zu analysieren. Als zweiter Einsatz- 
bereich ist die Clusteranalyse von Items zu sehen, mit dem Ziel aus einer groBen 
Menge von Aufgaben Untergruppen zu bilden, aus denen sich moglichst unabhangi- 
ge Skalen bilden lassen. 

Wenn die Clusteranalyse, verglichen mit anderen multivariaten Verfahren, selte- 
ner zum Einsatz kommt, so durften dafiir folgende Griinde verantwortlich sein: 

(a) Die Durchfuhrung einer Clusteranalyse erfordert sowohl bei der Auswahl des 
AhnlichkeitsmaBes als auch bei der Auswahl der Algorithmen und der Festlegung der 
Clusterzahl eine Reihe von Entscheidungen, die inhaltlich oft schwer zu begriinden 
sind. 

(b) Bei der Clusteranalyse von Personen ist immer zu bedenken, daB die untersuch- 
ten Personen nur eine Stichprobe aus der Population sind, iiber die Aussagen gemacht 
werden soli. Uber den EinfluB von Stichprobenfehlem auf Clusterlosungen ist aber 
bislang nur wenig bekannt. 

(c) Die Clusteranalyse von Items dient im wesentlichen denselben Zielen wie die 
Faktoranalyse. Neben der starken Tradition der Faktoranalyse ergab sich von daher 
kein besonderer Bedarf nach Clusterverfahren als Alternative - zumal in beiden Fal- 
len die Korrelationen die Ausgangsbasis bilden und somit alle Einwande gegen die 
Faktorenanalyse, die die Populationsabhangigkeit und mogliche Artefakte bei der 
Berechnung von Korrelationen betreffen, fiir die Clusteranalyse genauso zutreffen. 



Zusammenfassung 

Clusteranalysen haben zum Ziel, Objekte so zu gruppieren, daB Objekte, die in die- 
selbe Gruppe (= Cluster) fallen, moglichst ahnlich, die Gruppen untereinander mog- 
lichst unahnlich sind. Es steht eine Vielzahl von Verfahren zur Verfiigung, die sich 
danach unterscheiden, wie Ahnlichkeit bestimmt wird und nach welchen Algorithmen 
die Gruppenzusammenfassung erfolgt. In der psychologisch diagnostischen For- 
schung konnen Clusteranalysen zur Gruppierung von Personen oder auch im Rahmen 
der Testkonstruktion zur Gruppierung von Aufgaben zum Einsatz kommen. 
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5. Anforderungen an die klassischen Giitekriterien bei 
der Verwendung von Tests in der Forschung 



1st es gerechtfertigt, niedrigere Anforderungen an die Testgiitefcriterien m stel- 
len, wenn ein Test “nur” zu Forschungszwecken eingesetzt werden sail? ; ; 



Vorstrukturierende Lesehilfe 

Die klassischen Giitekriterien, namlich Objektivitat, Reliabilitat, Validitat und Nor- 
mierung, werden auf ihre Relevanz fur den Fall untersucht, dafi es nicht um die Dia- 
gnose von Einzelindividuen, sondern um den Vergleich von Gruppenmittelwerten 
geht. Es werden verschiedene Fehlerkomponenten unterschieden und jeweils gefragt, 
ob sich die Fehler mit zunehmendem Stichprobenumfang ausgleichen und damit kon- 
trollieren lassen, oder ob sie zu systematischen Unterschieden zwischen den Grup- 
pen beitragen und damit das Ergebnis der Untersuchung verfalschen konnen. 



5.1 Reliabilitat, Objektivitat, Validitat 

Wenn man von padagogisch-psychologischer Diagnostik spricht, hat man als Anwen- 
dungsbereich wohl primar die Untersuchung und Beratung einzelner Schuler im 
Auge. Hier kommt es auf die Genauigkeit der Messung bei einem einzelnen Proban- 
den an. Es gibt allerdings auch wichtige Anwendungsbereiche, bei denen es nicht um 
die Diagnostik bei Einzelindividuen, sondem um diagnostische Kennwerte fur be- 
stimmte Personengruppen oder Populationen geht. Das kann z.B. im Schulalltag der 
Fall sein, wenn eine bestimmte Klasse beurteilt werden soil, oder auch im Rahmen 
von Forschungsfragestellungen, die auf Gruppenvergleiche abzielen. Daraus ergibt 
sich die Frage, wie es um die MeBgenauigkeit eines Gruppenmittelwerts im Vergleich 
zu einem Einzelwert bestellt ist, und welche Anforderungen an die Testgiitekriterien 
zu stellen sind, wenn es in der diagnostischen Fragestellung primar um Gruppenmit- 
telwerte geht. Diese Frage soli im folgenden anhand eines Beispiels behandelt wer- 
den. 

Wir nehmen an, jemand wolle untersuchen, ob Verbalisieren (“lautes Denkeri') die 
Leistung bei Problemloseaufgaben verbessert. Die Versuchspersonen werden nach 
dem Zufall auf zwei Gruppen aufgeteilt, wovon die eine mit, die andere ohne Verba- 
lisierung wahrend des Problemlosens arbeitet. Die Leistungen werden dann, z.B. 
mithilfe des t-Tests, verglichen. Versuchsplan und Auswertung werfen hier keine be- 
sonderen Probleme auf. Vielmehr soil es im folgenden die Frage nach den Anforde- 
rungen gehen, die an den Problemlosetest hinsichtlich der klassischen Giitekriterien 
zu stellen sind. 





112 5. Anforderungen an die klassischen Giitekriterien bei Verwendung von Tests in der Forschung 



Rei iabi I itat: Wenn es um den Vergleich von Gruppenmittelwerten geht, kann man 
sich hinsichtlich der Reliabilitat mit wesentlich geringeren Werten zufrieden geben 
als bei der individuellen Diagnostik. Sofern es sich um unsystematische MeBfehler 
(Zufallseinfliisse) handelt, kann namlich mangelnde MeBgenauigkeit bei der einzel- 
nen Messung durch eine Erhohung des Stichprobenumfangs ausgeglichen werden. 
Das sieht man am besten, wenn man die Konfidenzintervalle fur den wahren Wert 
vergleicht: 

Bei einem einzelnen Probanden v, der einen beobachteten Wert X v hat, lautet das 
Konfidenzintervall fur den wahren Wert von Tv : 

x, = Xv + 1 .96 ct(F) fur a = 0.05 (vgl. Kapitel 2.2) 

Hat man es mit einer Gruppe von Probanden zu tun, die einen Mittelwert X erzielt 
haben, so lautet des Konfidenzintervall fur den durchschnittlichen wahren Wert die- 
ser(!) Probandengruppe (nicht zu verwechseln mit dem |i der Population, aus der die- 
se Probanden gezogen sind): 

f = X± 1.96 G(F)/Vn 

Man sieht, daB bei groBem Stichprobenumfang n dieses Konfidenzintervall sehr 
eng wird, auch wenn die Fehlervarianz des Tests zunachst groB ist. Ein Test, der fiir 
die individuelle Diagnostik wegen mangelnder MeBgenauigkeit nicht mehr in Frage 
kommt, kann fur einen Gruppenmittelwert immer noch eine zufriedenstellende Ge- 
nauigkeit liefern. 

Es ist jedoch zu beachten, daB die o.a. Formel lediglich die Frage beantwortet, in 
welchem Bereich der durchschnittliche wahre Wert dieser speziellen Probandengrup- 
pe zu suchen ist, nicht aber die Frage nach dem Mittelwert der Population, aus der 
diese Probanden als Zufallsstichprobe gezogen sind. Das Konfidenzintervall zu der 
letzteren Fragestellung lautet bekanntlich (die Ableitung findet sich in einfiihrenden 
Statistikbiichern, z.B. Bortz, 1989, Kapitel 3) 

p = X + 1 .96 a(X)/Vn 

D.h., die Ungenauigkeit, die entsteht, wenn der Gruppenmittelwert zur Schatzung 
des Populationsmittelwerts verwendet wird, hangt von der gesamten Testvarianz, also 
Fehlervarianz plus wahrer Varianz, ab. 



Beispiel 5.1: Reliabilitatsanforderungen bei Aussagen liber Einzelindividuen und 
Aussagen liber Gruppenmittelwerte 

Ein Test habe eine Varianz von 100 und eine Reliabilitat von 0.9. Man verglei- 
che die Breite folgender Konfidenzintervalle ( a = .05): 

(1) fiir den wahren Wert eines einzelnen Probanden 

(2) fiir den Durchschnitt der wahren Werte einer bestimmten Gruppe von 100 
Probanden 

(3) fiir den Mittelwert der Grundgesamtheit, aus der die 100 Probanden zufallig 
gezogen sind. Man berechne weiter, wie sich die Breite dieser Konfidenzinter- 
valle andern wiirde, wenn es gelange, bei gleichbleibender wahrer Varianz die Feh- 
lervarianz auf ein Viertel zu reduzieren. 
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Losung: (1) Man berechnet zunachst die Fehlervarianz nach Formel [2.7] 
o’ (F) = & (X) (1 - Rel) 



CT- (F) = 100(1 - .9) = 10; ct(F) = 3.16 

und erhalt das Konfidenzintervall fur den wahren Wert eines Probanden: 

Tv =Xv± 1.96 ■ 3.16 = Xv± 6.2 

(2) Fur den Mittelwert der wahren Werte einer bestimmten Gruppe von 100 Proban- 
den erhalt man: 

f = X ± 1 .96 • 3.16/ V 1 00 = X + 0.62 

Man sieht, bei gleicher Reliabilitat ist die MeBgenauigkeit fur einen Mittelwert 
wesentlich hoher als fiir einen Einzelwert. 

(3) Hier geht es nicht nur um den MeBfehler bei der Messung dieser speziellen 
Probanden, sondem auch um den Stichprobenfehler bei der Ziehung der 100 Proban- 
den aus der Grundgesamtheit. Die Breite des Konfidenzintervalls hangt von der 
gesamten beobachteten Varianz (d.i. wahrer Varianz plus Fehlervarianz) ab. Man 
erhalt: 

|i = X ± 1.96 • 10/VT00 = X± 1.96 

also ein wesentlich breiteres Intervall als bei Fragestellung (2) 

Genauigkeitsgewinn bei Reduktion der Fehlervarianz: Indem man fiir die Feh- 
lervarianz statt 10 nunmehr 10/4 = 2.5 einsetzt, sieht man, daB die Reduktion der 
Fehlervarianz auf ein Viertel die Breite des Konfidenzintervalls bei Fragestellung 
(1) und (2) halbiert. Dagegen wirkt sich bei Fragestellung (3) die Reduktion der 
Fehlervarianz nur wenig aus. Wenn 3/4 der Fehlervarianz wegfallt, so erhalt man 
als neue beobachtete Varianz: 

c 2 (F) = 100 - 10 • 3/4 = 92.5; a(F) = 9.6 

und als Konfidenzintervall fiir den Mittelwert der Grundgesamtheit 

|i =~X ± 1.96 • 9.6/VT00 = X± 1.88 

also ein nahezu unverandertes Ergebnis. Dagegen wiirde eine Vervierfachung des 
Stichprobenumfangs (n = 400 statt n = 100) die Breite dieses Konfidenzintervalls 
auf die Halfte reduzieren. 



Dementsprechend hangt auch die Teststarke des t-Tests, bei dem es ja auch um ei- 
nen PopulationsschluB geht, von der gesamten Varianz innerhalb der Gruppen (also 
wahrer Varianz plus Fehlervarianz) ab. Um eine hohe Teststarke zu erhalten, ist es 
giinstig, eine geringe Varianz innerhalb der Gruppen zu haben. Letzteres ist nicht nur 
eine Frage der MeBgenauigkeit des Tests (geringe Fehlervarianz), sondern vor allem 
eine Frage der Versuchsplanung: Wahlt man moglichst homogene Gruppen (z.B. nur 
Studenten), so wird dadurch die wahre Varianz verringert. Freilich wird dabei auch 
die Aussagekraft der Untersuchung auf die entsprechende Teilpopulation (Studenten) 
eingeschrankt. Bei Verwendung geeigneter Versuchsplane (z.B. parallelisierte Grup- 
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pen statt unabhangiger Gruppen) oder einer Erhohung des Stichprobenumfangs ist es 
allerdings moglich, hohe Teststarke fur den Mittelwertsvergleich auch bei groBer Va- 
rianz innerhalb der Gruppen zu erzielen. Es besteht also kein AnlaB, in der Testtheo- 
rie Zielgegensatze zwischen Tests fur die individuelle Diagnostik (hohe Reliabilitat) 
und Tests fiir die Diagnostik von Treatmenteffekten (geringe wahre Varianz und da- 
mit auch geringe Reliabilitat innerhalb der Gruppen) zu konstruieren, wie das in der 
Literatur bisweilen geschah (z.B. Popham & Husek, 1973). 

0 bjekti vitat: Im vorliegenden Beispiel sollte die Frage der Objektivitat nicht kri- 
tisch werden, da es moglich sein sollte, Testdurchfuhrung und -auswertung so weit 
festzulegen, daB eine hinreichende Objektivitat gewahrleistet ist. Man kann sich frei- 
lich auch vorstellen, es ginge um komplexe Problemloseaufgaben, die von den Ver- 
suchspersonen in freiem Beantwortungsmodus zu losen waren, und die Qualitat der 
Losung wtirde von einem Auswerter auf einer Punkteskala eingestuft. Objektivitat 
ware dann sicher nicht als selbstverstandlich vorauszusetzen. Damit stellt sich die 
Frage, wie sich die einzelnen Fehlerkomponenten, die zu mangelnder Objektivitat 
beitragen konnen, beim Vergleich von Gruppenmittelwerten auswirken (die im fol- 
genden nur inhaltlich erlauterten varianzanalytischen Ausdriicke wie Haupteffekte, 
Wechselwirkung, Error sind in Kapitel 6.1 formal erklart). 

Mangelnde Objektivitat kann einmal darin bestehen, daB zwischen den Beurtei- 
lern Mittelwertsunterschiede bestehen, indem manche Beurteiler generell strenger 
sind und im Durchschnitt weniger Punkte vergeben als andere (Haupteffekt Beurtei- 
ler). Wenn aber dieselben Beurteiler beide Probandengruppen beurteilen, sollten sol- 
che systematischen Unterschiede zwischen den Beurteilern beide Gruppen in gleicher 
Weise betreffen und damit den Mittelwertsunterschied zwischen den Probandengrup- 
pen nicht beeinflussen. Mangelnde Objektivitat kann auch auf Zufallseinfliisse in der 
Beurteilung zuriickgehen (Error im Sinn der Varianzanalyse). Solche Zufallseinfliis- 
se wiirden - wie bereits im Zusammenhang mit der Reliabilitat ausgefuhrt - mit zu- 
nehmendem Stichprobenumfang an Bedeutung verlieren. Mangelnde Objektivitat 
kann schlieBlich auch durch Wechselwirkungen Berurteiler x Proband zustande kom- 
men. Das ware z.B. der Fall, wenn ein Beurteiler zwar nicht generell strenger beur- 
teilt, aber bestimmte Fehlerarten anders bewertet als die anderen Beurteiler. Solche 
Wechselwirkungen konnten kritisch werden, wenn diese Fehlerarten in den beiden 
Probandengruppen unterschiedlich haufig vorkommen. Dann konnte es tatsachlich 
von der Person des Auswerters abhangen, welche Gruppe besser abschneidet. Solche 
Falle diirften aber doch eher seltene Ausnahmen sein. 

Im Sinne der Fragestellung gefahrlich sind hingegen alle suggestiven Einfliisse, 
denen Beurteiler unterliegen konnen, wenn sie die Gruppenzugehorigkeit der Proban- 
den und den Zweck der Untersuchung kennen. Deshalb sollten in solchen Fallen, wo 
immer moglich, MaBe herangezogen werden, die bei der Auswertung praktisch kei- 
nen Ermessensspielraum zulassen. 

Validitat: Validitatsmangel, die auf Zufallsfehlern beruhen und vom zu messenden 
Merkmal unabhangig sind, konnen durch eine Erhohung des Stichprobenumfangs 
kompensiert werden (vgl. Reliabilitat und Objektivitat). Wenn allerdings der Test in- 
haltlich an dem vorbeigeht, was er messen soil, dann ist dieser Mangel bei der Inter- 
pretation von Gruppenmittelwerten genauso gravierend wie bei der individuellen 
Diagnostik. Wurde z.B. der Problemlosetest nicht Problemlosen erfordem, sondern 
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nur Schulwissen abfragen, so ware das Experiment dem Sinn nach hinfallig. Man- 
gelnde Validitat der verwendeten MaBe ist eine der moglichen Ursachen fur das MiB- 
gliicken von Experimented Hinsichtlich der inhaltlichen Zulanglichkeit der verwen- 
deten MaBe sind bei der Diagnostik von Gruppenunterschieden sicherlich keine 
geringeren Anforderungen zu stellen als bei der individuellen Diagnostik. 



5.2 Normierung 

Wahrend bei der individuell beratenden Diagnostik der Vergleich mit den Normda- 
ten meist eine wichtige Rolle bei der Interpretation der Testbefunde spielt, lassen sich 
in der Forschung viele Fragestellungen auch ohne Bezugnahme auf die Normdaten 
beantworten. Um z.B. festzustellen, welche von zwei Gruppen im Durchschnitt mehr 
Treffer erzielt hat, sind offensichtlich keine Normdaten erforderlich. Sofem fur den 
Test entsprechende Normdaten zur Verfiigung stehen, kann man die beiden Mittel- 
werte auf der entsprechenden Skala (z.B. IQ-Einheiten) ausdrucken, um so die Gro- 
Be des Mittelwertsunterschieds anschaulicher werden zu lassen. 

Es lassen sich aber auch Forschungsfragestellungen denken, bei denen Normda- 
ten eingesetzt werden: Wenn in einer altersmaBig gemischt zusammengesetzten Stich- 
probe die Intelligent mit der sozialen Schichtzugehorigkeit korreliert werden soli, so 
wird man dazu nicht die Rohwerte (Anzahl der richtig gelosten Aufgaben) nehmen, 
in denen sich Intelligent- und Alterseffekte mischen, sondem die IQ verwenden, die 
das unterschiedliche Alter beriicksichtigen. Dabei werden sich etwaige Ungenauig- 
keiten in den Testnormen auf Angehorige aller sozialen Schichten etwa gleich aus- 
wirken. DaB es zu nennenswerten systematischen Verzerrungen kommt, ist zwar mog- 
lich (wenn z.B. die Normen fur Zehnjahrige nach oben verzerrt waren, und z.B. 
gerade bei den Mittelschichtkindem besonders viele Zehnjahrige erfaBt worden wa- 
ren), aber nicht sehr wahrscheinlich und bei sorgfaltiger Versuchsplanung (gleiche Al- 
terszusammensetzung bei alien sozialen Schichten) weitgehend vermeidbar. Der 
Qualitat der Testnormen kommt also auch bei diesem Beispiel bei weitem keine so 
zentrale Bedeutung zu, wie das bei der individuellen Diagnostik der Fall zu sein 
pflegt. 



Zusammenfassung 

Wenn es nicht um die Diagnostik von Einzelindividuen geht, sondern um Aussagen 
liber Gruppenmittelwerte und Vergleiche zwischen Gruppenmittelwerten, so konnen 
unsystematische, d.h. von MeBwert zu MeBwert unabhangige zufallige Fehler durch 
VergroBerung des Stichprobenumfangs ausgeglichen werden. Im Unterschied dazu 
werden Validitatsmangel, die auf mangelnder inhaltlicher Zulanglichkeit beruhen, 
und solche Fehler, die sich auf die einzelnen Gruppen unterschiedlich auswirken, mit 
zunehmendem Stichprobenumfang nicht ausgeglichen, sondem gefahrden die inhalt- 
liche Interpretation und damit den Sinn der Untersuchung. 




6. Weiterentwicklungen im Rahmen des klassischen 
Ansatzes 



6.1 Die Theorie der Generalisierbarkeit 



1 . Was versteht man unter dem globalen wahren Wert, dem globalen Mefifehler 
und der globalen Reliability? 

2. Wie kann die globale Reliability geschatzt werden? ; : : ; 

3. Welche Anwendungsbereiche kommen fiir die Theorie der Generalisierbar- 
keit primar in Betracht? , <f*|f|lltl|||||||| 



Vorstrukturierende Lesehilfe 

Zunachst wird der Ansatz der klassischen Testtheorie begrifflich erweitert, indem der 
Begriff der Testfamilie eingefuhrt wird, und darauf aufbauend werden die Begriffe 
des globalen wahren Werts, des globalen MeGfehlers und der globalen Reliabilitat 
definiert. Danach wird ein varianzanalytischer Versuchsplan skizziert, der die Schat- 
zung der globalen Reliabilitat erlaubt. AbschlieBend wird auf Anwendungsmoglich- 
keiten hingewiesen. 



6.1.1 Grundgedanken der Theorie der Generalisierbarkeit 

Die Theorie der Generalisierbarkeit ist eine Verallgemeinerung der klassischen 
Testtheorie. Im Mittelpunkt steht der Begriff der Generalisierbarkeit, der als erwei- 
terte Fassung des klassischen Reliabilitatsbegriffs aufzufassen ist. Die Grundgedan- 
ken wurden von Tryon (1957), Cronbach, Rajaratnam & Gleser (1963), Lord (1964), 
Rajaratnam, Cronbach & Gleser (1965) entwickelt; zusammenfassende Darstellun- 
gen findet man bei Lord & Novick (1968, Kapitel 8 und 9), oder Fischer (1974, Ka- 
pitel 6; 1986). 

Das Interesse an einer verallgemeinerten Theorie, die mit schwacheren Annahmen 
auskommt als die klassische Testtheorie, laBt sich von verschiedenen Seiten her be- 
griinden: Um die Reliabilitat gemaB der klassischen Testtheorie bestimmen zu kon- 
nen, benotigt man parallele Messungen. Da man in der praktischen Anwendung im- 
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mer davon ausgehen muB, daB die formale Definition der Parallelitat (perfekte Uber- 
einstimmung der wahren Werte, Gleichheit der MeBfehlerverteilungen) nicht genau 
erfiillt ist, stellt sich die Frage, was eigentlich geschatzt wird, wenn nicht genau pa- 
rallele Tests wie parallele behandelt werden. Der Begriff der Generalisierbarkeit hat 
aber auch enge Beziehungen zum Begriff der Validitat, wenn diese primar als inhalt- 
liche Validitat oder als Ubereinstimmungsvaliditat aufgefaBt wird, wie das z.B. bei 
lehrzielorientierten Tests der Fall ist. In der Frage nach der Generalisierbarkeit der 
Testergebnisse auf andere Tests mit ahnlichem Gtiltigkeitsanspruch geht die Frage 
nach der Reliabilitat in die Frage nach der Validitat iiber. 

In der Theorie der Generalisierbarkeit tritt an die Stelle des Begriffs der Parallel- 
tests der Begriff der "Testfamilie" oder der "nominell parallelen" Tests. Was man als 
Testfamilie definiert, ist - formal gesehen - beliebig. In der Absicht, etwas inhaltlich 
Sinnvolles zu definieren, wird man inhaltlich ahnliche Tests (z.B. Schulleistungstests 
zum selben Unterrichtsstoff) in vergleichbaren Skaleneinheiten ausgedriickt als “no- 
minell parallel’' zusammenfassen. Der globale wahre Wert eines Probanden v, be- 
zeichnet mit (£ = griechisch: zeta), ist als der Durchschnitt (Erwartungswert) der 
wahren Werte definiert, die der Proband in den Tests der Testfamilie hat: 

[6.1] = E (ivi) 

i = Index fur die Tests; die Tests werden zufallig gezogen 

Im Unterschied zum globalen wahren Wert in der Testfamilie (z.B. verschiedenen 
Formen eines Schulleistungstests) wird dann der wahre Wert in einem bestimmten 
Test (z.B. Testform A) als "spezifischer wahrer Wert" bezeichnet. 

Hat man einen Probanden v mit einem Test i getestet, so liegt ein beobachteter Wert 
X vi vor. Die Abweichung dieses beobachteten Werts vom globalen wahren Wert des 
Probanden heiBt "globaler MeBfehler" (E vi ). 

Globaler MeBfehler: E vi = X vi - C v 

Die Abweichung vom speziftschen wahren Wert in diesem Test heiBt "spezifischer 
MeBfehler" (F vi ). 

Spezifischer MeBfehler: F vi = X vi - Tv. 

Der Anted der Varianz der globalen wahren Werte an der beobachteten Varianz in 
der Testfamilie (= beobachtete Varianz bei Zufallsziehung von Probanden und Tests) 
wird als "globale Reliabilitat" der Testfamilie bezeichnet. Im Unterschied dazu heiBt 
dann der Anted der Varianz der speziftschen wahren Werte eines Tests an der beob- 
achteten Varianz dieses Tests "spezifische Reliabilitat” des Tests. Um die Varianz der 
globalen wahren Werte und der globalen MeBfehler zu bestimmen, legt man k Tests 
aus der Testfamilie einer Stichprobe von Personen vor. (Es kann hier offen bleiben, 
ob es sich dabei um eine Zufallsstichprobe aus der Testfamilie handelt, oder die Test- 
familie nur aus diesen k Tests besteht). Ein entsprechender Versuchsplan ist in Tabel- 
le 6.1 dargestellt. 
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Tabelle 6.1: Zweifaktorieller varianzanalytischer Versuchsplan zur Schatzung der globalen Re- 
liabilitat. Zeilenfaktor = Personen = A; Spaltenfaktor = Tests = B 
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FaBt man diesen Datenerhebungsplan als zweifaktoriellen varianzanalytischen 
Versuchsplan (Zeilenfaktor = Personen, Spaltenfaktor = Tests) mit einem MeBwert pro 
Zelle auf, so kann man den beobachteten Wert in varianzanalytische Komponenten 
zerlegen. An dieser Zerlegung laBt sich der Unterschied zwischen globalem und spe- 
zifischem MeBfehler inhaltlich deutlicher mac hen. In einem zweifaktoriellen Ver- 
suchsplan lautet die Zerlegung eines MeBwerts: 

X« = |i + a» + p, + apvi + res.: 



mit [t = Erwartungswert liber alle Personen und Tests 

a. = Haupteffekt der Person. Haupteffekte der Personen drticken individuelle Un- 
terschiede im globalen, d.h. iiber alle Tests gemittelten Leistungsniveau aus. 
Personen-Haupteffekte sind Unterschiede in den globalen wahren Werten. 

Bj = Haupteffekt des Tests. Damit werden Schwierigkeitsunterschiede zwischen den 
Tests ausgedriickt. 

aP»i = Wechselwirkungseffekt. Abweichung des Erwartungswertes einer Zelle 
(= Erwartungswert einer Person v in einem Test i, also ihr speziftscher wahrer 
Wert Tvi) von dem, was sich aufgrund der Haupteffekte (= Schwierigkeit des 
Tests, globales Leistungsniveau der Person) allein ergeben wiirde. Ein positi- 
ver Wechselwirkungsbetrag wiirde z.B. entstehen, wenn eine sonst durch- 
schnittliche Person gerade den Test bekame, auf dessen Aufgaben sie sich be- 
sonders gut vorbereitet hat. (Das Gegenteil kann auch vorkommen). 

res vi = Von Messung zu Messung unabhangiger ZufallseinfluB 

Zerlegt man den MeBwert eines Probanden in den globalen wahren Wert und den 
globalen MeBfehler, so entspricht das folgender Zusammenfassung: 

X»i = (p. + a.) + (pi + aP», + resvi) = + Evi 
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d.h. Schwierigkeitsunterschiede zwischen den Tests und Wechselwirkungseffekte 
werden dem globalen Fehler zugerechnet. Die Zerlegung in den spezifischen wahren 
Wert und spezifischen MeBfehler entsjiricht dagegen folgender Zusammenfassung: 

X»i = (ft + a. + Pi + ap*i ) + (res.i ) = x„ + F.i 

d.h. Schwierigkeitsunterschiede zwischen den Tests und Wechselwirkungseffekte 
werden zum spezifischen wahren Wert gerechnet. Nur die unabhangigen Zufallsein- 
fliisse zahlen zum spezifischen Fehler. Die rechnerische Durchfiihrung der Varianz - 
analyse und die Schatzung der Varianzanteile soli hier nicht im einzelnen dargestellt 
werden. Die globale Fehlervarianz in der Testfamilie laBt sich relativ einfach als Va- 
rianz der Testwerte, die von derselben Person stammen, schatzen. Die Schatzung 
weiterer Komponenten (Varianz der globalen wahren Werte, Aufspaltung der globa- 
len Fehlervarianz in Anteile zu Lasten von Schwierigkeitsunterschieden, Wechselwir- 
kungen, spezifischen MeBfehlern) richtet sich danach, ob die vorliegenden Tests die 
gesamte Testfamilie ausmachen oder ob sie als Zufallsstichprobe aus der Testfamilie 
aufgefaBt werden (Naheres dazu siehe Lord & Novick, 1968, Kapitel 7-9; Fischer, 
1974, Kapitel 6.3). Eine Weiterfiihrung des Ansatzes (Erweiterung des zweifaktori- 
ellen varianzanalytischen Versuchsplans auf 3 und mehr Dimensionen) findet man bei 
NuBbaum (1987). Ein dreifaktorieller Versuchsplan entsteht z.B., wenn jede von N 
Personen jeden von k Tests in jeder von m Situationen bearbeitet hat. 



6.1.2 Anwendungsmoglichkeiten 

(a) Ubereinstimmung zwischen Tests mit ahnlichem Validitatsanspruch: Tests mit 
ahnlichem Validitatsanpruch und gleichen Skaleneinheiten (vergleichbare Rohwert- 
skalen oder gleiche Standardisierung) konnen zu einer Testfamilie zusammengefaBt 
werden. Die Frage nach der Ubereinstimmung innerhalb einer solchen Testfamilie ist 
von unmittelbarem praktischem Interesse. Die globale Reliabilitat kann zugleich als 
MaB der konvergenten Validitat betrachtet werden. Die Angabe der globalen Fehler- 
varianz beantwortet die Frage, welche Varianz im Durchschnitt zu erwarten ist, wenn 
ein Proband mit den verschiedenen Tests getestet wird. Die Datenerhebung fur den 
in Tabelle 6.1 dargestellten Versuchsplan ist allerdings recht aufwendig, da jeder 
Proband alle Tests bearbeiten muB. Hat man solche Daten zur Verfiigung, so wird man 
sich auch nicht mit der globalen Charakterisierung der Testfamilie begniigen, sondem 
daruber hinaus die einzelnen Tests naher betrachten: Wenn z.B. Haupteffekte der Tests 
signifikant waren, wird man weiter fragen, welche Tests leichter oder schwerer wa- 
ren. Man wird sich fur die Korrelationen zwischen den Tests interessieren, um sie 
inhaltlich zu interpretieren. Solche Einzelergebnisse sind hier mindestens so belang- 
voll wie die globale Beschreibung der Testfamilie. 

(b) Konstruktion von nominell parallelen Tests durch Item-Sampling: Nominell 
parallele Tests konnen auch dadurch definiert werden, daB aus einem Pool von Auf- 
gaben jeweils k Aufgaben zufallig gezogen werden. Alle moglichen Ziehungsergeb- 
nisse, d.h. alle moglichen Tests aus k Aufgaben bilden die Testfamilie. Der globale 
wahre Wert des Probanden ist dann die Trefferzahl, die er im Durchschnitt iiber alle 
Testziehungen zu erwarten hat. Bei einer einzelnen Testziehung mag der Proband 
Gluck oder Pech haben, indem er leichte oder schwierige Items zieht (=Haupteffekt 
Tests) oder auch Items, die gerade ihm leicht bzw. gerade ihm schwer fallen (=Wech- 
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selwirkung Test-Proband). Diese Effekte sowie Zufallseinfliisse bei der Bearbeitung 
der gezogenen Items tragen zum globalen Fehler bei. Die Theorie des Item-Samplings 
wurde zwar frith entwickelt (siehe Lord & Novick, 1968, Kapitel 11), aber selten prak- 
tisch zum Einsatz gebracht. Der Grund dafiir diirfte darin liegen, daB entsprechende 
Itempools nicht zur Verfiigung stehen - wenngleich verschiedene Ansatze dazu vor- 
handen sind (siehe Kapitel 6.2 und 7.4). Ein relativ fruhes Anwendungsbeispiel fin- 
det man bei Hively, Patterson & Page (1968) die mit Hilfe der Theorie der Generali- 
sierbarkeit die Ubereinstimmung von verschiedenen Mathematiktests, die nach 
demselben Schema konstruiert waren (siehe Kapitel 6.2), bestimmten. 

(c) Anwendungsmoglichkeiten bei der Bestimmung der Auswertungsobjektivitat: 
Zur Feststellung der Auswertungsobjektivitat eines Tests werden die Testprotokolle 
einer reprasentativen Stichprobe von Probanden von mehreren unabhangigen Auswer- 
tern beurteilt, sodaB der in Tabelle 6.1 dargestellte Versuchsplan realisiert ist. Formal 
gesehen tritt nun an die Stelle der Testfamilie die Population moglicher Auswerter und 
die vorhandenen Auswerter werden als Zufallsstichprobe daraus betrachtet. Als MaB 
der Auswertungsobjektivitat wird die globale Reliabilitat der Urteile berechnet. Da- 
bei werden Mittelwertsunterschiede zwischen den Auswertem (manche Beurteiler 
mogen bei der Vergabe der Punkte groBziigiger sein, andere strenger), Wechselwir- 
kungen zwischen Protokoll und Beurteiler (manchen Beurteilern mogen bestimmte 
Arten von Antworten besonders gefallen oder miBfallen) und reine Zufallseinfliisse 
zu den Fehlern gerechnet und gehen in die Fehlervarianz ein. DaB all diese Kompo- 
nenten zum Fehler gerechnet werden, unterscheidet die varianzanalytische Berech- 
nung der Auswertungsobjektivitat von anderen Methoden: Berechnet man z.B. ein- 
fach die durchschnittliche Korrelation zwischen den Beurteilern, so bleiben 
Varianzunterschiede auBer Betracht, da ja Korrelationen darauf nicht reagieren. Wenn 
es nicht nur darauf ankommt, daB die Beurteiler die Probanden in dieselbe Rangreihe 
bringen, sondern auf die numerische Ubereinstimmung (daB sie dieselbe Leistung mit 
demselben Punktwert oder derselben Note belegen), ist die varianzanalytische Be- 
stimmung der Auswertungsobjektivitat vorzuziehen. Ein fruhes Anwendungsbeispiel 
findet man bei Michel & Mai (1969), die mit Hilfe von Varianzkomponenten-Zerle- 
gungen die Auswertungsobjektivitat verschiedener Untertests des HAWIE (Hamburg- 
Wechsler-Intelligenztest fur Erwachsene nach Hardesty & Lauber, 1956) bestimmten. 



Zusammenfassung 

Eine Testfamilie ist eine endliche oder unendliche Menge von nominell parallelen 
Tests. Der globale wahre Wert eines Probanden ist sein durchschnittlicher wahrer Wert 
gemittelt iiber die Testfamilie; der globale MeBfehler die Abweichung eines beobach- 
teten Testwerts vom globalen wahren Wert. Die globale Reliabilitat ist der Anteil der 
Varianz der globalen wahren Werte an der beobachteten Testvarianz. Die einzelnen 
Varianzkomponenten konnen geschatzt werden, wenn einer Stichprobe von Personen 
k Tests (k = alle oder k zufallig ausgewahlte) vorgelegt werden. Die Varianzzerlegung 
folgt dem allgemeinen Schema der Auswertung varianzanalytischer Versuchsplane. 
Die Theorie der Generalisierbarkeit kann verwendet werden, um die Ubereinstim- 
mung von als parallel konzipierten Testformen auszudriicken. Sie kann - in etwas 
anderem Kontext - auch verwendet werden, um Beurteilerubereinstimmung zu schat- 



zen. 




122 



6. Weiterentwicklungen im Rahmen des klassischen Ansatzes 



Fragen der Beurteilerubereinstimmung treten nicht nur im Zusammenhang mit der 
Auswertung von Tests auf. Auch bei der Auswertung von Verhaltens-Protokollen, 
Interview-Daten usw. stellen sich ahnliche Fragen. Sofern quantifizierbare Daten 
vorliegen, kommt auch hier eine varianzanalytsiche Berechnung der Beurteileruber- 
einstimmung in Betracht. 



Einfuhrende Literatur: 

Fischer, G.H. (1974). Einfiihrung in die Theorie psychologischer Tests. Kapitel 6: 
Theorie der Verallgemeinerung von Testergebnissen und die statistische Schatzung 
von Reliabilitatskoeffizienten. Bern: Huber. 



Weiterfiihrende Literatur: 

Lord, EM. & Novick, M.R. (1968). Statistical theories of mental test scores. Kapitel 
8: Some test theory for imperfectly parallel measurements; Kapitel 9; Types of 
reliability coefficients and their estimation. Reading, Mass.; Addison-Wesley. 
NuBbaum, A. (1987). Das Modell der Generalisierbarkeitstheorie. In: Klauer, K.J. Kri- 
teri um so rientierte Tests. S. 114-136. Gottingen; Hogrefe. 
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6.2 Kriterienorientierte versus normorientierte Messung 



1 . Was versteht man unter kriterienorientierter Messung? 

2. Sind kriteriumsorientierte Tests nach denselben Prinzipien zu konstruieren und 
nach denselben Gutekriterien zu beurteilen wie normorientierte? 

3. Welche besondere Rolle spielt die inhaltliche Validitat und wie laBt sich in- 
haltliche Validitat begriinden? 

4. Welche Annahme macht das Binomialmodell und wie laJJt sich auf dieser Grund- 
lage ein Entscheidungsmodell (Kriterium erreicht/nicht erreicht) begriinden? 



Vorstrukturierende Lesehilfe 

Bei kriterienorientierter Messung geht es darum, die Leistung des Probanden mit ei- 
nem inhaltlich definierten Anforderungskriterium, z. B. einem Lehrziel, zu verglei- 
chen. Diese Zielsetzung wird zunachst von normorientierter Messung (Vergleich mit 
einer Normpopulation) abgegrenzt (6.2.1). Sodann wird die Frage behandelt, welche 
Bedeutung Kennwerte der klassischen Testtheorie wie Reliabilitat, Validitat, Stan- 
dardmeBfehler bei kriterienorientierter Messung haben. Dabei wird u.a. auch der als 
Alternative zu den klassischen Gutekriterien vorgeschlagene Ubereinstimmungskoef- 
fizient U diskutiert und auf Mangel dieses Koeffizienten hingewiesen (6.2.2). Bei dem 
Anforderungskriterium, liber dessen Erreichen/Nicht-Erreichen mithilfe eines krite- 
rienorientierten Tests entschieden werden soli, handelt es sich in der Regel um ein 
bestimmtes Lehrziel. Damit stellt sich die Frage, ob der Test fur dieses Lehrziel re- 
prasentativ ist, d.h. ob er inhaltliche Validitat besitzt. Es werden Itemkonstruktions- 
verfahren dargestellt und diskutiert, die inhaltliche Validitat gewahrleisten sollen 
(6.2.3). 

Das Anforderungskriterium kann so definiert sein, daB der Proband Aufgaben ei- 
nes bestimmten Typs mit einer bestimmten festgesetzten Wahrscheinlichkeit losen 
muB. Werden Items zufallig gezogen, so kann man das Binomialmodell anwenden, 
um die Trefferwahrscheinlichkeit eines Probanden zu schatzen, und Entscheidungs- 
regeln entwickeln, ab wann das Kriterium als erreicht gelten soli. Diese testtheoreti- 
schen Entwicklungen werden kurz dargestellt (6.2.3). Wenngleich ahnliche Gedanken 
auch schon fruher geauBert wurden, so diirfte die Diskussion um kriterienorientierte 
versus normorientierte Tests doch ihre wesentlichen Impulse ausgehend von den Ar- 
beiten von Ebel (1962) und Glaser (1963) erhalten und Ende der 60er/Anfang der 70er 
Jahre ihren Hohepunkt erreicht haben. Die Hauptergebnisse wurden von Klauer 
(1983; 1987) zusammenfassend dargestellt. Naheres zur Geschichte findet man auch 
bei Hilke (1980). 
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6.2.1 Die Zielsetzung kriterienorientierter Messung 

Wahrend es in der klassischen Testtheorie darum geht, individuelle Unterschiede zu 
erfassen, und dementsprechend das Testergebnis des Probanden gewohnlich im Ver- 
gleich mit einer Normpopulation (z. B. den Gleichaltrigen, vgl. Kapitel 2.3) angege- 
ben und interpretiert wird, geht es bei kriterienorientierter Messung um die Frage, ob 
der Proband ein bestimmtes, inhaltlich definiertes Lehrziel erreicht hat. Wieviele 
andere Probanden das Lehrziel ebenfalls erreicht haben, und wie sich die Leistung des 
Probanden von der anderer unterscheidet, steht dabei nicht zur Diskussion. Dement- 
sprechend muB das Kriterium, anhand dessen uber das Erreichen des Lehrziels ent- 
schieden wird, a priori, das heiBt ohne Bezugnahme auf die Verteilung der Werte in 
einer Gruppe oder Population, festgesetzt werden. Das ist z. B. der Fall, wenn als 
Kriterium dafiir, daB ein Kind das Lehrziel “Addieren im Zahlenbereich 1 bis 100” 
erreicht hat, festgesetzt wird, daB bei zufallig ausgewahlten Additionsaufgaben nicht 
mehr als 5 % Fehler vorkommen diirfen. Solche Vergleiche des Leistungsstandes ei- 
nes Probanden mit inhaltlich definierten Kriterien sind vor allem bei Fragen der Pla- 
nung, aber auch der Erfolgskontrolle von Unterricht von Interesse. 



6.2.2 Die Auseinandersetzung mit der klassischen Testtheorie 

Aufgrund der speziellen Zielsetzung kriterienorientierter Messung haben zunachst 
einige Autoren (Fricke, 1972; 1974; Herbig, 1973) die Ansicht vertreten, die klassi- 
sche Testtheorie mit ihren Prinzipien der Testkonstruktion und ihren Testgutekriteri- 
en sei fur kriterienorientierte Tests ungeeignet. Die klassische Testtheorie sei entwik- 
kelt worden, um individuelle Unterschiede zwischen Probanden zu erfassen, wahrend 
es doch das Ziel eines guten Unterrichts sein miisse, zu erreichen, daB alle Proban- 
den das Lehrziel erreichen, also diesbezuglich individuelle Unterschiede verschwin- 
den. Wenn alle den Lehrstoff vollstandig beherrschten, gabe es keine Testvarianz 
mehr, und die als Korrelationen definierten Gutekriterien (Reliabilitat und Validitat, 
aber auch Trennscharfekoeffizienten fur die einzelnen Items) seien nicht mehr angeb- 
bar (Fricke 1972; 1974; Ingenkamp, 1985; ahnlich Klauer, 1987). In diesem Sinn 
spricht z. B. Fricke (1972) von einem “Versagen” der klassischen Testtheorie bei kri- 
terienorientierten Tests. Als Alternative zu den klassischen Gutekriterien bietet Fricke 
(1972) den U-Koeffizienten an, der die Ubereinstimmung zwischen zwei oder meh- 
reren Tests oder auch zwischen zwei oder mehreren Beurteilern ausdriicken soil. Der 
U-Koeffizient ist wie folgt definiert: 



maxVar 

Var = durchschnittliche Varianz der Urteile liber einen Probanden (der Tester- 
gebnisse eines Probanden) 

maxVar = maximal mogliche Varianz der Urteile uber einen Probanden. Sie tritt 
auf, wenn die Halfte der Beurteiler den einen, die andere Halfte den 
anderen Extremwert nennt (wenn der Proband bei der einen Halfte der 
Tests den kleinstmoglichen, bei der anderen Halfte den groBtmoglichen 
Wert erzielt). 
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Wenn es nur um zwei Beurteiler (oder zwei Tests) geht und das Ergebnis nur in 
zwei Kategorien (Lehrziel erreicht/nicht erreicht) ausgedriickt wird, gibt der U-Koef- 
fizient den Prozentsatz ubereinstimmender Entscheidungen an. Der U-Koeffizient als 
Prozentsatz ubereinstimmender Entscheidungen wurde von Fricke (1972) sowohl fur 
Fragen der Reliabilitat (Ubereinstimmung zwischen zwei Tests) als auch der Validi- 
tat (Ubereinstimmung zwischen Test und Kriterium) empfohlen. 

Als Alternative zu den Itemselektionsverfahren der klassischen Testtheorie schlagt 
Glaser (1973) vor, die Items auszuwahlen, die den Lernfortschritt am besten sichtbar 
machen, indem sie von einer Personengruppe nach dem Training wesentlich haufiger 
gelost werden als vorher. 

Diese Kritik an der klassischen Testtheorie blieb nicht unwidersprochen (Stelzl, 
1976). Zwar trifft es zu, daB Reliabilitat und Validitat populationsabhangig definiert 
sind (vgl. Kapitel 2.5), doch bietet die klassische Testtheorie mit dem Begriff des 
StandardmeBfehlers und den darauf aufbauenden Konfidenzintervallen (vgl. Kapitel 
2.2) auch Konzepte an, die es ermoglichen, unabhangig von der Verteilung der wah- 
ren Werte die MeBgenauigkeit fur den einzelnen Probanden anzugeben. Im Extrem- 
fall, wenn alle Personen denselben wahren Wert haben, reduziert sich die beobacht- 
bare Testvarianz auf die Fehlervarianz. Nur in dem praktisch wenig realistischen 
Spezialfall, daB auch die Fehlervarianz Null ist, konnte die Testvarianz Null werden. 
Aber selbst dieser Fall fuhrt nicht zu theoretischen Problemen: Mit der Feststellung 
“die Fehlervarianz ist Null’' ist die Frage nach der MeBgenauigkeit ja ebenfalls be- 
antwortet. 

Der U-Koeffizient, der von Fricke (1972) als Alternative vorgeschlagen wurde und 
auch bei Ingenkamp (1985) und Klauer (1987) dargestellt ist, wurde von Stelzl (1976) 
kritisiert. Hier soil nur der einfachste Fall betrachtet werden, bei dem nur zwei Kate- 
gorien (Fehrziel erreicht oder nicht erreicht) unterschieden werden. Wie oben erwahnt 
gibt dann der U-Koeffizient fur zwei Tests den Prozentsatz ubereinstimmender Ent- 
scheidungen an. Dieses sehr einfache und anschauliche MaB erweist sich allerdings 
bei naherem Hinsehen als wenig geeignet, iiber die inhaltliche Ubereinstimmung oder 
die MeBgenauigkeit von Tests Auskunft zu geben: 

(1) Wenn zwei Tests beide so leicht sind, daB alle Probanden alle Aufgaben losen, 
oder beide so schwer, daB kein Proband eine Aufgabe lost, so ergibt sich unabhangig 
vom Inhalt der beiden Tests, der vollig verschieden sein kann, immer eine Uberein- 
stimmung von U = 1,0. Wenn z. B. in zwei Tests, die voneinander unabhangige Fa- 
higkeiten priifen (Diskuswerfen und Fateinvokabeln), jeweils 90 % der Schuler das 
Fehrziel erreichen, so ergibt sich ein U = 0,82 (0,9 x 0,9 = 0,81. 0,1 x 0,1 = 0,01). 
Als MaB dafiir, inwieweit zwei Tests dasselbe Merkmal erfassen, ist der U-Koeffizient 
somit offensichtlich irrefiihrend. 

(2) Auch wenn es sich um Test und Retest handelt, so daB die Frage nach der in- 
haltlichen Ubereinstimmung als beantwortet gelten kann, besagt ein hoher U-Koeffi- 
zient nicht, daB dieser Test fur diese bestimmte Probandengruppe als MeBinstrument, 
etwa zur Erfassung eines Fernfortschrittes, geeignet sein wird. Ist der hohe U-Koef- 
fizient auf extreme Testschwierigkeit (oder Feichtigkeit) zuruckzufuhren, so ist der 
Test trotz hohem U nicht geeignet, Fernfortschritte sichtbar zu machen. 

(3) Zeigen zwei als parallel konzipierte Tests einen niedrigen U-Koeffizienten, so 
kann das an mangelnder inhaltlicher Ubereinstimmung oder an mangelnder MeB- 
genauigkeit liegen, was schwerwiegende Mangel waren. Es kann aber - zumal bei 
nicht normierten Tests - auch an einer Skalenverschiebung liegen, wodurch das Kri- 




126 



6. Weiterentwicklungen im Rahmen des klassischen Ansatzes 



terium an unterschiedlichen Stellen des Leistungskontinuums zu liegen kommt. Letz- 
teres ware durch eine Skalentransformation leicht zu beheben. 

Wahrend in der klassischen Testtheorie zwischen MeBgenauigkeit (Reliabilitat), 
inhaltlicher Ubereinstimmung (Vergleich der Paralleltestreliabilitat mit anderen Ar- 
ten der Reliabilitatsbestimmung) und Ubereinstimmung der Skalierung (Normierung) 
unterschieden werden kann, sind diese Gesichtspunkte konfundiert, wenn man ledig- 
lich den U-Koeffizienten als Prozentsatz iibereinstimmender Entscheidungen angibt. 
Der U-Koeffizient kann somit als Alternative zu den Koeffizienten der klassischen 
Testtheorie bzw. den dort definierten FehlermaBen nicht iiberzeugen. 

Auch die Methoden der Testkonstruktion, die die klassische Testtheorie anbietet, 
stehen nicht im Widerspruch zu den Anliegen kriterienorientierter Messung. Vertre- 
ter des kriterienorientierten Ansatzes fordern, fur einen lehrzielorientierten Test miiB- 
ten die Items so ausgewahlt werden, daB ein Lernfortschritt moglichst gut sichtbar 
werde. Das seien solche Items, die von einer Personengruppe vor dem Unterricht mit 
sehr niedriger, nach dem Unterricht mit sehr hoher Wahrscheinlichkeit gelost werden. 
Eine solche Itemauswahl entspricht in der Terminologie der klassischen Testtheorie 
einer Itemselektion nach den Itemvaliditaten unter Verwendung des dichotomen 
Merkmals “Unterricht absolviert: Ja/nein” als AuBenkriterium, steht also nicht im 
Gegensatz zu den Vorgehensweisen der klassischen Testtheorie. 

Inzwischen ist die erste Phase der Diskussion, in der vor allem die Unterschiede 
zwischen kriteriumsorientierter und normorientierter Messung betont wurden, abge- 
klungen. Mittlerweile diirfte sich allgemein die Auffassung durchgesetzt haben, daB 
es hier nicht um gegensatzliche Prinzipien der Testkonstruktion geht, die entsprechend 
zu zwei verschiedenen Klassen von Tests fiihren miiBten, sondem um unterschiedli- 
che Interpretationsweisen von Tests. So z.B. kommen Tent & Waldow (1984) nach 
einer grundsatzlichen Diskussion um die Funktion padagogischer Diagnostik und ei- 
ner Auseinandersetzung mit den von beiden Seiten vorgetragenen Argumenten zu dem 
Ergebnis, daB Gruppennorm- und Lehrzielorientierung ineinander iiberfiihrbare 
Aspekte padagogischer Leistungsmessung sind. Ein Test, der fur einen bestimmten 
Lehrstoff reprasentativ ist und fur den Normwerte aus geeigneten Vergleichspopula- 
tionen vorliegen, ermoglicht sowohl einen Vergleich der Leistung des Probanden mit 
inhaltlich definierten Standards als auch mit der Normpopulation. Dementsprechend 
ware zutreffender, nicht von kriterienorientierten versus normorientierten Tests, son- 
dern von kriterienorientierter oder normorientierter Testbefundinterpretation zu spre- 
chen. Im Hinblick auf eine kriterienorientierte Testbefundinterpretation lauten dann 
die Hauptfragen an die Testtheorie: Wie bildet man aus einem Lehrstoff eine repre- 
sentative Aufgabenmenge? Wie entscheidet man, ob das Lehrziel erreicht ist? Zu die- 
sen Fragen wurden von verschiedener Seite Beitrage geleistet, die im folgenden kurz 
dargestellt werden (einen ausfiihrlichen Uberblick gibt Klauer, 1983; 1987). 



6.2.3 Spezifische Probleme lehrzielorientierter Tests 
6.2.3.1 I nhaltl iche Validitat 

Bei der Konstruktion lehrzielorientierter Tests besteht der erste und entscheidende 
Schritt darin, Aufgaben zu konstruieren, die fur den Lehrstoff reprasentativ sind, so 
daB fur den Test inhaltliche Validitat in Anspruch genommen werden kann. Dazu 
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wurden verschiedene Verfahren entwickelt, die Wieberg (1983) grab in ‘‘umgangs- 
sprachlich orientierte” und “formalsprachlich orientierte” einteilt. Erstere enthalten 
eher allgemein gehaltene Anleitungen zur Aufgabenkonstruktion, letztere versuchen 
fur bestimmte Bereiche Aufgabenuniversa so eng zu definieren, daB die einzelnen 
Aufgaben auch von einem Computer generiert werden konnten. 

Zu den umgangssprachlich orientierten Verfahren sind unter anderem die Lemziel- 
operationalisierung nach Mager (1965), die Konstruktion einer Lehrzielmatrix nach 
Tyler (1950) oder einer Lehrzieltaxonomie nach Bloom et al. (1971) zuzurechnen. 

Nach Mager (1965) soli eine Lemzieloperationalisierung folgende Elemente ent- 
halten: 

1. Angabe liber die vom Probanden am Ende des Unterrichts geforderte Tatigkeit. 
Dabei soil es sich um direkt beobachtbares Verhalten (Losen quadratischer Glei- 
chungen, Reparieren von Radios, Aufzahlen von Hauptstadten) handeln. Aus- 
driicke, die sich auf nicht direkt beobachtbare Zustande und Prozesse wie “Wis- 
sen”, “Verstehen”, “Wiirdigen konnen” beziehen, sind durch Angaben liber 
beobachtbares Verhalten zu ersetzen. 

2. Angabe iiber die Bedingungen, unter denen das geforderte Verhalten zu zeigen 
ist (z. B. iiber erlaubte Hilfsmittel). 

3. Angabe von Kriterien, unter denen das Lehrziel als erreicht gilt (z. B. geforder- 
ter Prozentsatz richtiger Losungen). 

Diese von Mager geforderte Operationalisierung von Lernzielen ist sicher geeig- 
net, allzu vage Lemzielbeschreibungen zu konkretisieren. Fiir die Testkonstruktion 
besagt sie allerdings kaum mehr, als daB aus einem Lernziel konkrete Testaufgaben 
hergeleitet werden sollen, wobei die Frage, wie diese inhaltliche Umsetzung zu ge- 
schehen hat, weitgehend offen bleibt. Anleitungen zur inhaltlichen Untergliederung 
eines komplexen Lehrzieles wurden schon von Tyler (1950) vorgelegt. Bei der Ab- 
leitung von Teillehrzielen werden eine Inhaltsdimension (Teilung des Lehrstoffes in 
inhaltliche Abschnitte) und eine Handlungsdimension (z. B. Wissen, Verstandnis, An- 
wendung) unterschieden. Wenn man die beiden Dimensionen systematised kombi- 
niert, erhalt man die “Tyler-Matrix”. Jede Zelle dieser Matrix entspricht einem Teil- 
lehrziel, fiir das dann Testaufgaben zu konstruieren sind (vgl. Abschnitt 10.2). 

Tabelle 6.2: Schema einer Tyler-Matrix 



Inhaltskomplexe 


Wissen 


Verstehen 


Anwendung 


A 




B 




C 





Das Grundschema der Tylermatrix wurde in den Lehrzieltaxonomien von Bloom 
weiterentwickelt und auf verschiedensten Wissensgebieten angewendet (Bloom et al., 
1971). Auch diese Gruppe von Verfahren wird von Wieberg (1983) den umgangs- 
sprachlich orientierten zugerechnet, da sie dem Testkonstrukteur bei der inhaltlichen 
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Ausgestaltung viel Spielraum lassen und Tests zum selben Lehrziel je nach Testautor 
unterschiedlich ausfallen konnen. 

Den Verfahren, die Wieberg (1983) als “formalsprachlich orientiert’' bezeichnet, 
ist gemeinsam, daB Regelsysteme entwickelt werden, mit denen ein Aufgabenuniver- 
sum moglichst eindeutig festgelegt werden soil. Dazu bieten sich zunachst relativ 
leicht abgrenzbare Teilgebiete, z. B. aus dem Bereich der Mathematik, an. Osburn 
(1968) und Hively et al. (1968) definieren Aufgabenuniversa mit Hilfe von Aufga- 
benschemata (“Itemforms”), aus denen dann durch Einsetzen von Zahlen oder Ob- 
jekten Aufgabenmengen entstehen. 

Ein einfaches Beispiel fur ein Aufgabenschema aus dem Bereich des Grundrech- 
nens konnte wie folgt aussehen: 

a x b = ? a und b sind natiirliche Zahlen zwischen 1 und 10. 

Allgemein gesprochen besteht ein solches Aufgabenschema aus der Angabe einer 
festen syntaktischen Struktur, die eine oder mehrere variable Elemente (hier: a und 
b) enthalt, sowie der Angabe von Regeln, nach denen fur die variablen Elemente ein- 
zusetzen ist (hier: a und b sind natiirliche Zahlen von 1 bis 10), um Items (z. B. die 
Frage “7x2 = ?“) zu generieren. Hively et al. (1968) konstruierten mit dieser Metho- 
de Aufgabenuniversa fur verschiedene elementare Rechenarten. Hinweise auf weite- 
re Anwendungen findet man bei Wieberg (1983) und Klauer (1987). So z.B. schlagt 
Klauer (1978; 1987) vor, diese Methode zur Konstruktion von Itempools fur Tests aus 
dem klassischen Bereich der Intelligenzmessung zu verwenden, etwa zur Konstruk- 
tion verbaler Analogieaufgaben (Gras: grim = Himmel: ?). Wenn Mengen von Rela- 
tionen (Teil von, groBer als . . .) und zu jeder Relation Mengen von Einsetzobjekten 
(z. B. zur Relation “Teil von” die Wortpaare Nase-Gesicht, Henkel-Tasse usw.) defi- 
niert sind, so kann daraus ein Itempool generiert werden. Kritisch anzumerken bleibt, 
daB die Fahigkeit, diesen speziellen Itempool zu losen, nicht von Interesse ist. Das 
Testergebnis soli vielmehr als Indikator breiter definierter Intelligenzfaktoren verwen- 
det werden. Dementsprechend interessiert hier nicht inhaltliche Validitat bezogen auf 
eine eng definierte Itemmenge, sondern der Wert des Tests als Indikator und Pradik- 
tor (Ubereinstimmung mit AuBenkriterien, prognostische Validitat usw.). 

Streng regelgeleitete Methoden der Itemkonstruktion scheinen zunachst auf einen 
Lehrstoff wie z. B. Geschichtswissen, bei dem Textverstehen und Erfassen von komp- 
lexen inhaltlichen Zusammenhangen im Vordergrund stehen, nicht anwendbar zu sein. 
Trotzdem wurden auch fur solche Lehrstoffe verschiedene Verfahren entwickelt, um 
sie mit Hilfe formaler Regeln in Aufgabenmengen umzusetzen. So z. B. empfiehlt 
Klauer (1987), den Lehrtext zunachst in eine Folge von Aussagen umzuschreiben, die 
den Sachverhalt vollstandig, aber ohne Weitschweifigkeit oder Wiederholungen dar- 
stellen. Beispiel fur eine solche Einzelaussage ist der Satz “Kolumbus hat Amerika 
im Jahr 1492 entdeckt”. Diese Aussagen werden in Fragesatze umgeformt, wobei 
nach jedem Satzteil (wer? was? wann?) gefragt werden kann. Aus diesen Fragen kann 
dann ein Test zusammengestellt werden, z. B. durch Zufallsauswahl der Fragen oder 
nach vorheriger Untergliederung des Textes in Abschnitte und Ziehen einer bestimm- 
ten Fragenzahl aus jedem Abschnitt. Ahnliche Ansatze, die teils auf grammatischen 
Strukturanalysen eines vorliegenden Textes aufbauen oder aber zunachst eine Neu- 
formulierung des Textes, z. B. eine Transformation in Propositionen erfordem, sind 
bei Feger (1984) zusammenfassend dargestellt und diskutiert. 

Wenngleich es mit Hilfe formalsprachlich orientierter Verfahren moglich ist, gut 
abgegrenzte Aufgabenmengen zu erzeugen, so sollte doch nicht iibersehen werden. 
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daB dabei eine Reihe von Entscheidungen zu treffen sind, die mehr oder weniger gut 
begriindet sein mogen, sich aber nicht zwingend aus dem Lehrziel ableiten lassen. Ein 
Unterrichtsstoff wie “Ursachen und Folgen des 30jahrigen Krieges” ist sicher nicht 
eindeutig in eine Aufgabenmenge zu zerlegen, sondern das Ergebnis wird stark vom 
Historiker bzw. vom Testautor abhangen. Selbst bei gegebener Aussagenmenge kann 
nach den einzelnen Satzteilen auf unterschiedliche Art gefragt werden (z. B. durch 
grammatische Transformation der Aussage in einem Fragesatz oder in Form eines 
Liickentests). Die Antwort kann frei zu formulieren sein oder unter mehreren Alter- 
nativen auszuwahlen, usw. Die Schwierigkeit eines Tests hangt aber von solchen will- 
kurlich festgesetzten Entscheidungen stark ab. Wenn nun zum selben Lehrziel mit 
gleichguten Griinden recht unterschiedliche Tests als inhaltlich valide zusammenge- 
stellt werden konnen, so stellt sich erneut die Frage nach der Ubereinstimmung die- 
ser Tests und der Aquivalenz der fur das Erreichen des Lehrziels gestellten Anforde- 
rungen. Versucht man diese Frage abzuschneiden, indem man wie Klauer (1987) 
definiert “Lehrziel ist eine Aufgabenmenge’', verschiebt man das Problem nur auf die 
Frage des Zusammenhangs zwischen Lehrzielen, die sich auf denselben Lehrstoff 
beziehen. 

Weiter sollte nicht iibersehen werden, daB auch Aufgaben, die aus demselben Auf- 
gabenschema generiert wurden, weder gleich schwierig noch sonstwie psychologisch 
gleichwertig zu sein brauchen. Die Multiplikationsaufgaben “2x2 = ?” und “7x8 = 
?” sind zwar aus demselben Schema generiert, die erste ist aber augenscheinlich leich- 
ter. In diesem Punkt fiihren die Arbeiten von Scandura (1977) weiter. Er faBt Lehr- 
ziele als Probleme auf, die mit einem bestimmten Algorithmus gelost werden konnen. 
So z. B. geben Dumin & Scandura (1977) einen mehrstufigen Losungsalgorithmus 
zur Subtraktion an. Aufgaben sind Equivalent, wenn zu ihrer Losung der Losungsal- 
gorithmus in derselben Weise zu durchlaufen ist. Damit ist zumindest der Versuch 
gemacht, bei der Festlegung der Aufgaben, die ein Lehrziel reprasentieren, die am 
LosungsprozeB beteiligten kognitiven Prozesse zu beriicksichtigen. Dabei diirfte frei- 
lich der Bereich, in dem sich Lernen als Erwerb von Algorithmen auffassen laBt, in- 
haltlich begrenzt sein. 

Die wichtigsten Ansatze zur Beantwortung der Frage, wie man inhaltliche Validi- 
ty erreicht, und die mit den einzelnen Losungsvorschlagen verbundenen Probleme 
konnten hier nur in den Grundzilgen dargestellt werden. Ubersichtstabelle 6. 1 enthalt 
eine Zusammenfassung. Detailliertere Darstellungen und Literaturhinweise zu den 
einzelnen Verfahren findet man unter anderem bei Roid & Haladyna (1982), Wieberg 
(1983) und Klauer (1987). 

Wenn es um die praktische Anwendung der einzelnen Verfahren im Unterrichtsall- 
tag geht, sind neben theoretischen Gesichtspunkten auch Fragen der Okonomie zu 
bedenken. Speziell dann, wenn ein umfangreicher Lehrstoff, z.B. das in einem Schul- 
jahr zu vermittelnde Geschichtswissen, mit formalsprachlichen Methoden in eine 
Aufgabenmenge umgesetzt werden soil, diirfte zumindest fur Lehrer die Grenze des 
Zumutbaren uberschritten sein. 
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Ubersicht 6.1: Ansatze zur Konstruktion inhaltsvalider Tests 

(a) Umgangssprachlich orientierte Anleitungen zur Umsetzung von Lemzielen in 
lemzielorientierte Tests. Beispiele: 

Lehrzieloperationalisierung nach Mager (1965). Es ist zu operationalisieren, 
(1) welches Verhalten (2) unter welchen Bedingungen gezeigt werden soil und 
(3) bei welchem Kriterium des Lemziel als erreicht gilt. 

Erstellen einer Tyler-Matrix (Tyler 1950, Bloom 1971). Unterscheidung von 
Inhaltsaspekt (z.B. Teilabschnitte des Lehrstoffs) und Handlungsaspekt (Wissen, 
Verstehen, Anwendung). Bei der Konstruktion der Testaufgaben werden die- 
se beiden Aspekte systematisch miteinander kombiniert. 

Vorteil: Breite Anwendbarkeit auf nahezu beliebige Bereiche; Nachteil: Relativ 
breiter Ermessensspielraum des Anwenders, so daB verschiedene Testkonstruk- 
teure zu recht unterschiedlichen Tests kommen konnen. 

(b) Formalsprachlich orientierte Verfahren zur Abgrenzung von Aufgabenuniversa 
Beispiele: 

Osburn (1968), Hively et. al. (1968): Ein Aufgabenuniversum wird durch ein 
formales Aufgabenschema definiert, aus dem durch Einsetzen aus einer ein- 
deutig definierten Menge von Zahlen, Begriffen usw. Aufgaben entstehen. 
Scandura (1977): Ein Aufgabenuniversum wird dadurch definiert, daB sich die 
Aufgaben mit demselben Algorithmus losen lassen. 

Klauer (1987): Ein Lehrziel ist eine Aussagenmenge (z.B. Aussagen iiber den 
DreiBigjahrigen Krieg). Daraus werden nach einer Sampling-Vorschrift (z.B. 
nach dem Zufall) Aussagen gezogen und nach bestimmten Transformations- 
regeln (z.B. Fragen nach einzelnen Satzteilen) in Testaufgaben umgeformt. 
Vorteil: Das Aufgabenuniversum ist klar abgegrenzt. Nachteile: (1) Bei der Kon- 
struktion des Aufgabenuniversums muB eine Vielzahl von Ad-hoc -Entschei- 
dungen getroffen werden, so daB auch hier zum selben Lehrstoff recht unter- 
schiedliche Tests entstehen konnen. (2) Bei umfangreicherem Lehrstoff aus 
okonomischen Griinden schwer zu realisieren. 



6.2.3.2 Das Binomialmodell und darauf aufbauende Klassifikationsstrategien 

Wenn es gelungen ist, fur ein Lehrziel einen inhaltsvaliden Test zu konstruieren, so 
stellt sich fur eine kriteriumsorientierte Testinterpretation als nachstes die Frage, ab 
wann das Lehrziel als erreicht gelten soil und mit welcher Sicherheit im Einzelfall 
dariiber entschieden werden kann. Solche Fragen wurden vor allem auf der Grundla- 
ge des Binomialmodells diskutiert. Man geht dabei von der (bislang allerdings kaum 
praktisch realisierten) Vorstellung aus, daB ein Aufgabenuniversum definiert ist, aus 
dem zufallig gezogen werden kann. Das Binomialmodell setzt voraus, daB jeder 
Proband v durch eine im Laufe der Testdurchfiihrung gleichbleibende Wahrschein- 
lichkeit 7tv (7t = griechisch: pi) charakterisiert ist, mit der er ein Item aus dem Item- 
pool lost. Die Wahrscheinlichkeit, daB der Proband von n vorgelegten Items k richtig 
lost, ergibt sich dann gemaB der Binomialverteilung. Der Erwartungswert dieser Bino- 
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mialverteilung ist der wahre Wert des Probanden Tv = n7tv , die Varianz die Fehlerva- 
rianz 0 2 (Fv) = n 7 tv( 1-x”). Im Unterschied zu den Annahmen, die gewohnlich im Rah- 
men der klassischen Testtheorie bei der Berechnung von Konfidenzintervallen ge- 
macht werden (Normalverteilung der Fehler, gleiche Fehlervarianz in alien 
Skalenbereichen; vgl. Kapitel 2.2), hangt hier die Fehlervarianz vom wahren Wert ab 
(geringere Fehlervarianz bei sehr kleinen oder sehr groBen Werten von x v ; groBte 
Fehlervarianz bei ji* = 0.5). Die Fehlerverteilung ist keine Normalverteilung, sondern 
eine um eine Konstante verschobene Binomialverteilung und entsprechend dem Wert 
von Jtv rechts- oder linksschief. 

Auf diesen Modellannahmen aufbauend, konnen Entscheidungsregeln entwickelt 
werden, wie diagnostiziert werden soil, ob ein Proband das Lehrziel erreicht hat: Dazu 
wird zunachst eine bestimmte Losungswahrscheinlichkeit Tlkrit als fur das Erreichen 
des Lehrziels entscheidend definiert. Je nachdem, wie man Fehler der einen oder an- 
deren Art (ein “Konner” wird falschlich als “Nichtkonner” oder umgekehrt ein “Nicht- 
konner” falschlich als “Konner” eingestuft) gewichtet, und je nach Lange des Tests, 
kann die im Test erforderliche Trefferzahl nach oben oder unten wandem. In weite- 
ren Varianten konnen Fehler, je nach Abstand des Probanden von der Kriteriumsmar- 
ke, unterschiedlich gewichtet werden, es konnen statt zwei auch drei kritische Punkt- 
werte (Konner, unentschieden, Nichtkonner) festgesetzt werden, es konnen 
Annahmen liber die Verteilung der wahren Werte mitberiicksichtigt werden, usw. In 
Zensierungsmodellen wird fur jede Note eine Losungswahrscheinlichkeit als Krite- 
riumsmarke definiert, woran sich dann analoge Uberlegungen anschlieBen lassen. 
Eine ausfiihrliche Darstellung findet man bei Klauer (1987). 

Das einfache Binomialmodell setzt voraus, daB fur einen Probanden die Treffer- 
wahrscheinlichkeit bei alien Items eines Tests gleich ist. Das ist erfiillt, wenn alle 
Items gleich schwierig sind - was praktisch unrealistisch ist. Wie bereits erwahnt, 
brauchen Items, die aus dem gleichen Aufgabenschema erzeugt sind, keineswegs 
gleich schwierig sein. Eine weitere Moglichkeit, das Modell zu realisieren besteht 
darin, aus einem beliebigen Itempool fur jede Testdurchfuhrung unabhangig Items zu 
ziehen. Auch wenn die Itemschwierigkeiten sehr unterschiedlich sind (die Versuch- 
sperson z. B. 70 % der Vokabeln weiB und mit der Wahrscheinlichkeit 1 lost, die iib- 
rigen mit der Wahrscheinlichkeit 0), so ergibt sich durch die zufallige Itemauswahl 
eine konstante Trefferwahrscheinlichkeit ( Jtv = 0,7). Beispiel 6.1 geht von dieser Mo- 
dellannahme aus. Verallgemeinerungen des Modells, bei denen die Voraussetzung 
einer konstanten Trefferwahrscheinlichkeit fallen gelassen wird und mit verschiede- 
nen Naherungsverfahren ahnliche Fragen behandelt werden wie fur das einfache 
Binomialmodell, findet man bei Klauer (1987). 

Versucht man das Binomialmodell mit anderen testtheoretischen Modellen in Be- 
ziehung zu setzen, so laBt es sich wie folgt einordnen: Es laBt sich im Rahmen der 
klassischen Testtheorie als Spezialfall betrachten, der durch bestimmte Annahmen 
liber die MeBfehlerverteilung charakterisiert ist. Geht man von der (wie bereits ge- 
sagt, wenig realistischen) Annahme gleicher Aufgabenschwierigkeit fur alle Items 
aus, so laBt sich das Binomialmodell als Spezialfall eines Latent-Trait-Modells mit 
fur alle Items gleicher Itemcharakteristik (z.B. Rasch-Modell mit fur alle Items glei- 
chem Schwierigkeitsparameter) betrachten. 

Betrachtet man den Fall ungleicher Itemschwierigkeiten, bei dem die gleichblei- 
bende Trefferwahrscheinlichkeit durch die zufallige Itemauswahl realisiert wird, so 
kann man zwischen Testwiederholung mit demselben Test (d. h. denselben Testitems) 
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Beispiei 6.1 Berechnung der Trefferverteilung bei gegebener Losungswahrschein- 
lichkeit im Binomialmodell 

Ein Priifer hat festgesetzt, daB die Vokabelprufung bestanden ist, wenn der Proband 
80% der gepriiften Vokabeln gewuBt hat. Die Vokabeln werden zufallig gezogen. 
Ein Proband hat 90% der Vokabeln gelemt. Wie sicher kann er sein, daB er 
die Priifung bestehen wird, 

(a) wenn 10 Vokabeln gepriift werden, von denen 8 richtig sein mussen? 

(b) wenn 20 Vokabeln gepriift werden, von denen 16 richtig sein mussen? 
Losung: 

Einer Tabelle fur die Binomial verteilung (z.B. Bortz, 1989) entnimmt man, daB 
bei n = 10 Versuchen und einer Fehlerwahrscheinlichkeit von 1 - 7C = 0.1 die 
Wahrscheinlichkeit fur 0 bis 1 Fehler ( und damit 8 oder mehr Richtige) 0.73 betragt. 
Bei n = 20 Versuchen ist die Wahrscheinlichkeit fiir 0 bis 4 Fehler ( und 16 oder 
mehr Richtige) 0.96. D.h., bei einem langeren Test kann der Proband, der ja 
seinem Wissensstand nach iiber der 80%-Marke liegt, sicherer sein, die Priifung 
tatsachlich zu bestehen. 



und einem neu aus dem Itempool gezogenen Test unterscheiden. Solche Uberlegun- 
gen fiihren dann zur Theorie der Generalisierbarkeit, die sich auf “zufallsparallele” 
Tests als Mitglieder einer ■‘Testfamilie’' gut anwenden laBt (siehe Kapitel 6.1). 



Zusammenfassung 

Versucht man nun, mehr als 20 Jahre nach dem Beginn der Diskussion um normori- 
entierte versus kriterienorientierte Messung eine Bilanz zu ziehen, so ergibt sich fol- 
gendes Bild: Der in der friihen Diskussion betonte Gegensatz ist iiberwunden. Sowohl 
der Vergleich mit einer Normpopulation als auch der Vergleich mit einem inhaltlich 
definierten Standard als Kriterium ist diagnostisch relevant, und es hangt von der in- 
dividuellen Problemstellung ab, ob eher der eine oder andere Gesichtspunkt im Vor- 
dergrund steht. Normorientierte und kriterienorientierte Messung setzen auch nicht 
zwei verschiedene Klassen von Tests voraus, sondem beide Arten von Informationen 
konnen aus demselben Test gewonnen werden, vorausgesetzt, daB er inhaltsvalide ist 
und Normdaten vorliegen. 

Kernpunkt einer speziellen Testtheorie lehrzielorientierter Tests ist die Frage, wie 
inhaltliche Validitat zu erreichen ist. Von unterschiedlichen Ansatzen ausgehend wur- 
den Regelsysteme entwickelt, nach denen ein Lehrstoff in eine Aufgabenmenge um- 
zusetzen ist. Solche Anleitungen zur Konstruktion von Testaufgaben konnen zweifel- 
los sowohl zum Erstellen informeller Tests (z. B. Klausuren) als auch fiir die 
Testkonstruktion im engeren Sinn von Nutzen sein. Trotzdem bleiben Probleme be- 
stehen: 

(1) Die Umsetzung eines Lehrstoffs in eine Aufgabenmenge erfordert eine Reihe 
subjektiver Entscheidungen, so daB aus demselben Lehrstoff recht unterschiedliche 
Aufgabenuniversa erzeugt werden konnen. 
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(2) Auch eine eindeutige Definition eines Aufgabenuniversums - z. B. mit Hilfe 
einer generierenden Regel - impliziert keineswegs die psychologische Homogenitat 
der generierten Items. 

Weitere spezifische Beitrage, die durch die speziellen Probleme kriterienorientier- 
ter Messung initiiert wurden, sind die Weiterentwicklung des Binomialmodells und 
die darauf aufbauenden Klassifikationsstrategien und Zensierungsmodelle. 
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6.3 Methodische Beitrage zum Problem der Testfairness 



1 . Wann ist ein Test gegeniiber alien gesellschaftlichen Gruppen als “fair” zu be- 
zeichnen? 

2. Welche Versuche wurden gemacht, den BegrifF der Testfairness von der me- 
thodischen Seite her zu definieren, und wo stoBen diese Bemiihungen auf Gren- 
zen? 



Vorstrukturierende Lesehilfe 

Das Problem der Testfairness wurde zunachst vor allem in den USA, dort hauptsach- 
lich in Zusammenhang mit Fragen der Diskriminierung rassischer Minderheiten, in- 
tensiv diskutiert. Nicht zuletzt durch die Klage eines weiBen Amerikaners gegen ein 
Universitats-Zulassungverfahren, das rassischen Minderheiten einen Bonus einraumte 
(dpa-Meldung September 1977, zitiert nach Mobus, 1978), wurde die Diskussion um 
Chancengleichheit und Testfairness weiter angeheizt. 

Im deutschen Sprachraum waren es nicht zuletzt die bildungspolitischen Proble- 
me im Zusammenhang mit Hochschulzulassungsverfahren (Tests fur die medizini- 
schen Studiengange), die zu einer offentlichen Diskussion um die Frage moglicher 
Benachteiligung bestimmter Personengruppen, z.B. Angehoriger unterer sozialer 
Schichten, fiihrten. Differenziertere Konzepte der Testfairness, die in den USA be- 
reits entwickelt waren, wurden aufgegriffen und weiter diskutiert. Im folgenden wird 
zunachst das prognose-orientierte Testfairness-Konzept vorgestellt. Danach ist die 
Selektion mithilfe eines Tests z.B. gegeniiber Angehorigen aller sozialen Schichten 
fair, wenn in alien sozialen Schichten der gleiche Testwert der gleichen Erfolgswahr- 
scheinlichkeit entspricht (6.3.1). Dieses Konzept hilft allerdings nicht weiter, wenn 
es darum geht, festzulegen, welche Merkmale trotz moglicher prognostischer Rele- 
vanz grundsatzlich nicht zur Prognose herangezogen werden sollen, weil das offen- 
sichtlich unbillig ware (6.3.2). Radikale Alternativen zum prognose-orientierten Test- 
faimess-Konzept sind das Identitatskonzept und Quotenplane. 



6.3.1 Das prognose-orientierte Testfairness-Konzept 

Dort, wo Tests zur Selektion von Bewerbern eingesetzt werden, wie z.B. bei Hoch- 
schulzulassungsverfahren, werden Probleme der Testfairness am deutlichsten sicht- 
bar: Die Tests sollen alien Bewerbern die gleiche Chance geben, es sollen nicht ein- 
zelne Gruppen (z.B. nach dem Geschlecht, nach der sozialen Herkunft o.a.) bevorzugt 
oder benachteiligt werden. Diese Fragen sind naturlich besonders brisant, wenn Ent- 
scheidungen auch gegen den Willen der Betroffenen (Ablehnung von Bewerbern) von 
offentlichen Institutionen getroffen werden. Sie stellen sich grundsatzlich aber auch 
in Beratungssituationen, bei denen die Entscheidung vom Ratsuchenden selbst getrof- 
fen wird: Eine systematische Fehleinschatzung bestimmter Personengruppen auf- 
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grund mangelnder Testfairness wiirde sich zwar nicht so unmittelbar, aber der Ten- 
denz nach ahnlich auswirken wie bei direkter Selektion. 

So einfach und einleuchtend die Forderung nach fairen Test- und Selektionsver- 
fahren zunachst auch aussieht, so zeigt sich bei naherem Hinsehen doch bald, daB es 
sich beim Begriff der Testfairness um ein theoretisch schwieriges Konzept handelt, 
das in verschiedener Weise expliziert werden kann. Versucht man zunachst die For- 
derung, ein faires Selektionsverfahren miisse jedem die gleiche Chance einraumen, 
ganz wortlich zu nehmen, so ist sie am besten durch das Los zu erfullen. DaB lebens- 
laufbestimmende Entscheidungen vollig grundlos, unvorhersehbar und unbeeinfluB- 
bar per Zufall getroffen werden, diirfte indes kaum jemand fur wiinschenswert hal- 
ten. Wenn von Tests verlangt wird, sie sollten jedem die gleiche Chance geben, so ist 
damit sicher nicht gemeint, sie sollten nach dem Zufall funktionieren, sondem es ist 
etwas mitgedacht, was nicht explizit gemacht ist: Jedem die gleiche Chance bei glei- 
chem Leistungsstand, bei gleichen Fahigkeiten, gleicher Erfolgswahrscheinlichkeit 
gemessen an verschiedenen Bewahrungskriterien. Vom Test ist dann zu fordern, daB 
er ein moglichst valider Indikator fur diejenigen Kriterien (Ausbildungs- und Berufs- 
erfolg) ist, die die Selektion bestimmen sollen. Von daher erscheint die Test-Krite- 
riumsbeziehung ein geeigneter Ansatzpunkt, um Testfairness begrifflich naher zu 
bestimmen. Eine Reihe von Autoren hat die Test-Kriteriumsbeziehung als Ausgangs- 
punkt gewahlt, um ein statistisches Konzept der Testfairness zu entwickeln, das im 
folgenden dargestellt werden soli. 

Nach Cleary (1968) und Anastasi (1968) ist ein Test X zur Vorhersage eines Krite- 
riums Y (z.B. Studienerfolg) fair gegeniiber den Gruppen i=l ... g (z.B. Bewerbern aus 
verschiedenen Schularten), wenn fur alle Gruppen dieselbe Test-Kriteriumsbeziehung 
gilt, so daB bei alien Gruppen gleicher Testleistung gleiche durchschnittliche Kriteri- 
umsleistungen entsprechen. Im Falle einer linearen Test-Kriteriumsbeziehung bedeu- 
tet das, daB dieselbe Regressionsgerade 

E(Y/x) = a+B x 

mit denselben Werten fur a und B fur alle g Gruppen giiltig ist. Eine solche Situation 
ist in Abbildung 6.1 dargestellt: 

Abbildung 6.1: Test-Kriteriums-Beziehung, die die Testfairness-Bedingung nach Cleary 
( 1968) & Anastasi ( 1968) erfiillt. 




Die Populationen A und B liegen auf derselben Regressionsgeraden, so daB demselben 
Testwert X in beiden Populationen derselbe vorhergesagte Kriteriumswert Y* = E(Y/x) 
entspricht. 
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Die beiden Gruppen A und B unterscheiden sich sowohl hinsichtlich der durch- 
schnittlichen Testleistung als auch hinsichtlich der durchschnittlichen Kriteriumslei- 
stung, es gilt aber fur beide Gruppen dieselbe Regressionsgerade. Fiir beide Gruppen 
ist der durchschnittliche Schatzfehler (Abweichung des tatsachlichen Y-Werts vom 
Regressionsschatzwert) gleich Null, d.h. bei Verwendung des Tests als Pradiktor wird 
fiir keine der beiden Gruppen der Kriteriumswert systematisch iiber- oder unter- 
schatzt. In Abbildung 6. 1 sieht man das daran, daB bei jeder der beiden Gruppen der 
gleiche Flachenanteil iiber der Regressionslinie liegt (die tatsachlichen Kriteriums- 
werte sind hoher als die Regressionsschatzung, der Kriteriumswert des Pbdn wird also 
unterschatzt) wie unterhalb der Regressionslinie (der tatsachliche Kriteriumswert ist 
niedriger als die Regressionsschatzung, der Kriteriumswert des Pbdn wird iiber- 
schatzt). 

Abbildung 6.2a und 6.2b zeigen Falle, in denen die von Cleary (1968) und Anastasi 
(1968) angegebene Bedingung nicht erfiillt ist. 



Abbildung 6.2a: Mangelnde Testfaimess im Sinne von Cleary (1968) & Anastasi (1968): 
Unterschied im Mittelwert des Kriteriums bei sonst gleicher Test-Kriteriums- Beziehung. 




Regressionslinie fiir Population A 

Regressionslinie fur Population B 

Gemeinsame Regressionslinie bei Zusammenfassung beider Populationen 

Die Kriteriumswerte der Probanden aus Population A liegen haufiger iiber der gemeinsamen 
Regressionslinie, d. h. die Probanden werden bei Verwendung der gemeinsamen Regressionslinie 
unterschatzt. Bei Population B ist es umgekehrt. 



Test X 



Regressionslinie fiir Population A 

Regressionslinie fiir Population B 

Gemeinsame Regressionslinie bei Zusammenfassung beider Populationen 

Bei Verwendung dergemeinsamen Regressionslinie werden in Population A die Kriteriumswerte 
von Probanden mit hohen Testwerten im Durchschnitt unterschatzt, die von Probanden mit 
niedrigen Testwerten im Durchschnitt tiberschatzt. In Population B ist es umgekehrt. 



In Abbildung 6.2a unterscheiden sich die beiden Gruppen nicht im durchschnittli- 
chen Testwert, wohl aber in den durchschnittlichen Kriteriumswerten. Bei Verwen- 
dung einer aus beiden Gruppen gemeinsam bestimmten Regressionsgleichung wer- 
den die Kriteriumswerte der Gruppe A unterschatzt, die der Gruppe 13 iiberschatzt. 
Dem Unterschied im durchschnittlichen Kriteriumswert entspricht in der Regressi- 
onsgleichung ein Unterschied in der Regressionskonstanten. 

Durch die Verwendung gruppenspeziftscher Regressionsgleichungen wird hier die 
Giite der Vorhersage verbessert, d.h. die Schatzfehler werden dem Betrag nach ver- 
ringert. AuBerdem sind dann in jeder der beiden Gruppen positive und negative 
Schatzfehler gleich haufig, so daB der durchschnittliche Fehler in jeder Gruppe Null 
ist. Im vorliegenden Spezialfall (lineare Regression, gleicher Anstieg der Regressi- 
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onsgeraden) lauft die Berechnung getrennter Regressionslinien auf einen Bonus fur 
die Gruppe A hinaus, der dem Unterschied in der Regressionskonstanten entspricht. 
Ein solcher Bonus fur Angehorige der Gruppe A entspricht in anderer formaler Dar- 
stellung der Verwendung einer multiplen Regressionsgleichung mit “Gruppenzuge- 
horigkeit” als zweitem, zum Test hinzukommendem Pradiktor. 

In Abbildung 6.2b ist eine Situation dargestellt, in der beide Gruppen sowohl im 
Test als auch im Kriterium gleiche Mittelwerte haben. Die Test-Kriteriumskorrelati- 
on ist aber bei Gruppe A hoher und der Anstieg der Regressionslinie daher steiler als 
bei Gruppe B. Bei Verwendung einer aus beiden Gruppen gemeinsam berechneten Re- 
gressionslinie ist zwar fur jede der beiden Gruppen der durchschnittliche Schatzfeh- 
ler Null (es liegen gleich viele Probanden iiber und unter der gemeinsamen Regressi- 
onsgeraden), trotzdem gibt es systematische Tendenzen: Bei den Probanden der 
Gruppe A werden bei iiberdurchschnittlichen Testleistungen im Durchschnitt zu nied- 
rige, bei unterdurchschnittlichen Testleistungen im Durchschnitt zu hohe Kriteriums- 
leistungen vorhergesagt. Bei Probanden der Gruppe B verhalt sich das genau umge- 
kehrt. Auch hier wiirde eine Berechnung getrennter Regressionslinien die 
Kriteriumsvorhersage insgesamt verbessern. Da hier der Unterschied im Anstieg der 
Regressionsgeraden liegt, ist die Berechnung getrennter Regressionslinien nicht als 
additiver Zuschlag (Bonus) fur eine der beiden Gruppen darstellbar. 

Man beachte, daB gemaB der Definition von Cleary (1968) und Anastasi (1968) 
Testfairness ein Begriff ist, der eine dreistellige Relation aus Test, Gruppenzugeho- 
rigkeit und Kriterium beinhaltet. Die bloBe Anwendung eines Tests bei einer Gruppe, 
ohne Bezugnahme auf ein Kriterium, ist demnach noch nicht als fair oder unfair zu 
beurteilen. So ware die Feststellung, daB die Schuler der Schule A, die nur zwei Jah- 
re Physikunterricht hatten, in einem Physiktest schlechter abgeschnitten haben als die 
Schuler der Schule B, die vier Jahre Physik hatten, nicht unfair. Wiirde dieser Test 
jedoch verwendet, um die Studieneignung fur Medizin vorherzusagen, so wiirden sich 
die Schuler der Schule A wahrscheinlich zu Recht iiber Unfairness beklagen, wenn 
fiir alle Schiller dieselbe Regressionsgleichung bzw. derselbe kritische Punktwert 
verwendet wiirde. Bei Aufteilung der Daten nach Schulart wiirde sich voraussichtlich 
zeigen, daB verschiedene Regressionsgleichungen gelten und bei Verwendung einer 
gemeinsamen Regressionsgleichung die Kriteriumswerte der Gruppe A systematisch 
unterschatzt werden. Bei der Verwendung getrennt berechneter Regressionsgleichun- 
gen ware dann innerhalb jeder Gruppe eine hohere Korrelation zwischen Test und 
Kriterium zu finden als in der aus beiden Schularten gemischt zusammengesetzten 
Population, so daB die Verwendung getrennter Regressionsgleichungen auch insge- 
samt eine bessere Vorhersagegenauigkeit ergabe als die Verwendung einer gemeinsa- 
men Regressionslinie. 

Auch Falle, in denen beim ersten Hinsehen kein Bezug auf ein Kriterium zu erken- 
nen ist, lassen sich im Rahmen des Prognose-orientierten Testfairness-Konzepts in- 
terpretieren. Wenn die Verwendung eines verbalen Intelligenztests bei fremdsprachi- 
gen Auslandern zu Recht als unfair bezeichnet wiirde, so deshalb, weil damit eine 
Generalisierung von spezifischen Unkenntnissen auf andere Feistungsbereiche nahe- 
gelegt wiirde. Die Kriterien werden zwar nicht ausdriicklich genannt, aber es wiirde 
beziiglich eines breiten Feldes moglicher Kriterien eine Unterschatzung erfolgen. 

Weiter kann ein Test X, der sich bei der Vorhersage eines Kriteriums Y beziiglich 
einer bestimmten Gruppenaufteilung (z.B. Schulart) als fair erwiesen hat, sich bei Ver- 
wendung anderer Gruppierungsmerkmale (z.B. Geschlecht) als unfair erweisen. 




6.3 Methodische Beitrage zum Problem der Testfairness 



139 



Wottawa & Amelang (1980) weisen zu Recht darauf hin, daB sich bei jeder Kriteri- 
umsvorhersage eine Vielzahl von Gruppierungsvariablen finden laBt, die mit dem 
Schatzfehler korrelieren und deren Hinzunahme als Pradiktoren die Kriteriumsvor- 
hersage verbessern wtirde. Wenn aus einem Intelligenztest X die Schulleistung Y vor- 
hergesagt wird, so wiirde vermutlich der FleiB als zusatzlicher Pradiktor eine Verbes- 
serung der Kriteriumsvorhersage erbringen. Das heiBt aber nichts anderes, als daB bei 
Verwendung des Tests allein die Kriteriumswerte der FleiBigen systematisch unter- 
schatzt, die der Faulen iiberschatzt werden. Im Sinne der Definition von Cleary (1968) 
& Anastasi (1968) bedeutet das mangelnde Testfairness bzw. Selektionsfairness ge- 
geniiber den FleiBigen. Da es nun sicher iiberzogen ware, zu sagen ein Test ware nur 
dann fair einsetzbar, wenn die Vorhersage durch keine weiteren Pradiktoren verbes- 
serungsfahig ist, wird man sich entscheiden miissen, beziiglich welcher Merkmale 
Testfairness untersucht und notigenfalls durch Verwendung entsprechend modifizier- 
ter Selektionsstrategien (Bonus/Malus-System, Berechnung getrennter Regressions- 
gleichungen) hergestellt werden soil. 

Das zunachst von Cleary (1968) & Anastasi (1968) vorgestellte Konzept der Test- 
fairness wurde von verschiedenen Autoren weiter diskutiert und modifiziert. So z.B. 
gehen Einhorn & Bass (1971) von der Vorstellung eines kritischen Kriteriumswertes 
aus, ab dem jemand als erfolgreich gelten soil (z.B. Bestehen der AbschluBpriifung 
mit mindestens “ausreichend’'), und fordem, daB der kritische Testwert gruppenspe- 
zifisch jeweils so festgelegt wird, daB dem Erreichen dieses Testwerts dieselbe Er- 
folgswahrscheinlichkeit entspricht. 

p(Y>ykrit/X=xi*) = konstant fur alle Gruppen i 

y kr it= Kriteriumswert, ab dem jemand als erfolgreich gilt 

Xj*= gruppenspezifisch festgelegter, fur eine Aufnahme erforderlicher Testwert. 

Das Modell fordert also eine fur alle Gruppen gleiche minimale Erfolgswahr- 
scheinlichkeit, ab der eine Aufnahme erfolgt, ohne daB eine bestimmte Form der Test- 
Kriteriumsbeziehung (z.B. lineare Regression) zugrunde gelegt wird. 

Cole (1973) und Linn (1973) gehen ebenfalls von einem dichotomen Erfolgskrite- 
rium aus. Cole (1973) fordert, daB bei alien Gruppen die Wahrscheinlichkeit fur ei- 
nen Bewerber, aufgenommen zu werden, wenn er geeignet ist, gleich sein soil. Der 
fur eine Aufnahme erforderliche Testwert soil dementsprechend gruppenspezifisch 
festgelegt werden. Bei stark ungleichen Grundquoten (=Anteilen an Geeigneten) in 
den einzelnen Gruppen fuhrt eine solche Selektion zu entsprechend ungleichen An- 
teilen ungeeignet Aufgenommener aus den verschiedenen Gruppen, was aber bewuBt 
in Kauf genommen wird. 

Linn (1973) wiederum schlagt vor, die fur die Aufnahme erforderlichen Testwerte 
so festzulegen, daB bei alien Gruppen der Anted der Erfolgreichen an den Aufgenom- 
menen gleich ist, wobei dann der Anted der abgelehnten Geeigneten ungleich sein 
kann. 

Weitere Varianten des prognose-orientierten Konzepts der Testfairness sollen hier 
nicht dargestellt werden. Eine Ubersicht findet man bei Mobus (1978). 
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6. Weiterentwicklungen im Rahmen des klassischen Ansatzes 



6.3.2 Probleme des prognose-orientierten Testfairness-Konzepts 

In der folgenden Diskussion greifen wir der Einfachheit halber auf das Regressions- 
konzept von Cleary ( 1968) & Anastasi ( 1968) zuriick, wobei die Argumentation fur 
verwandte Konzepte analog zu fiihren ware. 

Nach Cleary (1968) & Anastasi (1968) ist eine Testanwendung fair, wenn bei al- 
ien Probandengruppen gleichen Testwerten gleiche durchschnittliche Kriteriumswerte 
entsprechen. Statt eines einzelnen Tests kann naturlich auch eine Testbatterie oder ein 
aus Testdaten und anderen Informationsarten zusammengesetzter Wert verstanden 
werden. Statt von Testfaimess ist dann von Fairness der Selektionsstrategie zu spre- 
chen. 

Bei den Kriterien, die vorhergesagt werden sollen, geht es gewohnlich um Ausbil- 
dungserfolg (Erreichen des Abschlusses, Noten, Beurteilungen durch Lehrer und 
Ausbilder) und berufliche Bewahrung (Ausiiben des erlemten Berufs, Zufriedenheit, 
Selbst- und Fremdbeurteilung des Erfolgs). Bei der Vorhersage solcher Kriterien 
werden sich allerdings eine Reihe von Merkmalen als gute Pradiktoren erweisen, bei 
denen man es als ausgesprochen unfair empfande, wenn sie zur Selektion herangezo- 
gen wiirden. Wenn z.B. ein Jugendlicher durch hausliche Umstande stark belastet ist 
(zerriittete Familie, Belastung durch die Betreuung von Schwerkranken), wird das 
vermutlich den Ausbildungserfolg mindern. Die Kenntnis solcher Umstande zum 
Nachteil des Jugendlichen zu verwenden, wiirde wohl niemand als “fair” empfinden, 
egal ob damit die Vorhersage verbessert wird oder nicht. Andere Beispiele lassen sich 
leicht ftnden: Wer von den Eltem einen gut eingefuhrten Betrieb ubernehmen kann, 
wird mit erhohter Wahrscheinlichkeit in dem entsprechenden Beruf erfolgreich sein, 
wer eine Ausbildungseinrichtung wahlt, in der die Feistungsanforderungen bekann- 
termaBen etwas geringer sind als iiblich, wird mit erhohter Wahrscheinlichkeit ab- 
schlieBen, usw. 

An diesen Beispielen wird deutlich, daB eine formale Definition “gleiche Erfolgs- 
wahrscheinlichkeit = gleiche Selektionswahrscheinlichkeit” nicht ausreicht, um Se- 
lektionsfairness zu definieren, sondern daB es zusatzlich einer inhaltlichen Abgren- 
zung bedarf, auf welche Pradiktoren die Prognose zu sttitzen ist, und welche nicht 
herangezogen werden sollen. Fetztere Frage ist nur unter Bezugnahme auf gesell- 
schaftspolitische Wertsetzungen zu beantworten und geht damit iiber den Bereich 
empirischer Wissenschaft hinaus. Vermutlich werden die meisten einig sein, daB es 
fairer ist, die Prognose auf Eigenschaften des Probanden zu sttitzen (Fahigkeiten, 
Interessen, bisher erbrachte Feistungen) als aufauBere Umstande, die er nicht zu ver- 
treten hat. Versucht man jedoch, beides zu trennen, so stoBt man sehr rasch auf Ab- 
grenzungsprobleme: Die Eigenschaften des Probanden sind Ergebnis einer Entwick- 
lung, die seinen bisherigen Lebensbedingungen entspricht. Wenn jemand dank 
bestimmter Arbeitshaltungen und -techniken erfolgreicher studiert als andere, wird 
man ihm diesen Erfolg personlich zuschreiben. Den Erwerb dieser Arbeitsweise hat 
er vielleicht einem engagierten Nachhilfelehrer zu verdanken. Die Frage, was dem 
Probanden selbst positiv oder negativ zuzurechnen ist und was nicht, und ob es fair 
ist, ein bestimmtes Merkmal zur Prognose heranzuziehen, wird deshalb in vielen Fal- 
len strittig bleiben. 

Diese inhaltlichen Schwierigkeiten machen es verstandlich, daB dem prognose- 
orientierten Testfaimess-Konzept simplere Konzepte gegenuberstehen, bei denen auf 
den Kriterienbezug und auf Validitatsmaximierung bewuBt verzichtet wird. 
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6.3.3 Identitatskonzept und Quotenplane als Alternativen zum prognose- 
orientierten T estfairness-Konzept 

Das Identitatskonzept ist das einfachste Konzept der Testfairness. Danach ist ein Test 
fair gegeniiber Probanden aus unterschiedlicher sozialer Schicht (mit unterschiedli- 
cher Schulbildung, gegeniiber beiden Geschlechtem usw.), wenn er keinerlei Zusam- 
menhang mit der sozialen Schicht (bzw. dem in Frage stehenden Gruppierungsmerk- 
mal) zeigt, d.h. die Testwerte miissen sich in alien sozialen Schichten (innerhalb jeder 
Schulart, bei beiden Geschlechtem usw.) gleich verteilen. Eine solche Forderung ist 
wohl vielfach nur zu erfullen, wenn ganz erhebliche Abstriche vom inhaltlichen Test- 
konzept und damit von der Validitat gemacht werden. Gerade wenn man davon aus- 
geht, daB z.B. die verschiedenen sozialen Schichten unterschiedlich giinstige Ent- 
wicklungsbedingungen bieten, die sich in einem entsprechend unterschiedlichen 
Fahigkeitsstand niederschlagen, kann man von einem validen Fahigkeitstest nicht ver- 
langen, daB er keine Abhangigkeit von der sozialen Schicht zeigt. 

Wottawa & Amelang (1980) weisen darauf hin, daB das Identitatskonzept jederzeit 
auch ohne Eingriff in den Testinhalt realisiert werden kann, wenn man die Testwerte 
gruppenspezifisch normiert. In der Tat geben Test-Handanweisungen bisweilen meh- 
rere Arten von gruppenspezifischen Normen an, z.B. Normen fur verschiedene Alters- 
stufen, fur verschiedene Schulabschliisse, getrennt nach Geschlechtem usw. Wendet 
man solche gruppenspezifische Normen, z.B. nach Schularten getrennte Normtabel- 
len an, so korrelieren die normierten Werte ex definitione mit dem Gruppierungsmerk- 
mal, hier dem erreichten SchulabschluB, zu Null. Eine Selektion aufgrund solcher 
gruppenspezifisch normierter Werte entspricht der Vergabe eines Bonus an Personen 
aus der Gruppe mit den niedrigeren Durchschnittswerten, da hier j a derselbe Norm- 
wert aufgrund eines niedrigeren Testrohwerts erreicht wird. Wenn es fur die Vorher- 
sage eines Kriteriums primar auf den tatsachlichen Leistungsstand ankommt, so wie 
er sich im Testrohwert ausdruckt, kann die Verwendung gruppenspezifischer Norm- 
werte, im ganzen gesehen, nur zu einer Verschlechterung der Vorhersage fiihren. Letz- 
teres in Kauf zu nehmen, braucht aber nicht irrational zu sein, wenn man unter der 
vorrangigen Zielsetzung, bestimmte gesellschaftliche Veranderungen durchzusetzen 
(z.B. Angehorige von Minderheiten verstarkt auf Hochschulen zu bringen), bewuBt 
von einer Selektion nur nach dem zu erwartenden Erfolg absieht. 

Noch deutlicher wird dieser Gesichtspunkt, wenn die Selektion nach einem Quo- 
tenplan erfolgt, so daB Angehorige verschiedener Gruppen nicht mehr gegeneinan- 
der konkurrieren, sondern jeder Gruppe ein bestimmtes Kontingent an Platzen unab- 
hangig von der Leistungsfahigkeit zugewiesen wird. Innerhalb jeder Gruppe kann 
dann wieder prognosenorientiert selegiert werden. Eine solche Quotierung vorab 
widerspricht der Zielsetzung, diejenigen Probanden auszuwahlen, die bei den beste- 
henden gesellschaftlichen Bedingungen die hochste Erfolgserwartung haben. Das ist 
aber nicht als irrational zu betrachten, wenn dieses Ziel bewuBt zuriickgestellt wur- 
de, z.B. in kompensatorischer Absieht oder in Hinblick auf erwartete Signalwirkun- 
gen auf andere gesellschaftliche Bereiche. 
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6. Weiterentwicklungen im Rahmen des klassischen Ansatzes 



Zusammenfassung 

Das Konzept “gleiche Erfolgswahrscheinlichkeit = gleiche Selektionswahrscheinlich- 
keit”, das den Grundgedanken des prognose-orientierten Testfairness-Konzepts aus- 
macht, stoBt auf Grenzen, wenn aufgrund von Werthaltungen bestimmte Merkmale 
nicht zur Prognose herangezogen werden sollen. Da Erfolgswahrscheinlichkeit zu- 
mindest empirisch nur unter den jeweils gegenwartigen gesellschaftlichen Bedingun- 
gen bestimmt werden kann, lauft eine Selektion nach Erfolgswahrscheinlichkeit Ge- 
fahr, bestehende Benachteiligungen/Vorteile zu reproduzieren. Wenn gesellschaftliche 
Veranderung das vorrangige Ziel ist, so kann statt einer Selektion nach Erfolgswahr- 
scheinlichkeit eine Selektion nach Quotenplanen als zweckmaBiger erscheinen. 



Einfuhrende Literatur: 

Mobus, C. (1978). Zur Fairness psychologischer Intelligenztests. Ein unlosbares Pro- 
blem zwischen Gruppen, Individuen, Institutionen? Diagnostics 24, 19 1-234. 



Weiterfuhrende Literatur: 

Mobus, C. (1983). Die praktische Bedeutung der Testfaimess als zusatzliches Krite- 
rium zu Reliabilitat und Validitat. In: R. Horn, K. Ingenkamp & R.S. Jager (Hrsg.), 
Tests und Trends 3 (S. 155-203). Weinheim: Beltz. 

Wottawa, H. & Amelang, M. (1980). Einige Probleme der Testfaimess und ihre Imp- 
likationen fur Hochschulzulassungs-Verfahren. Diagnostics, 26, 199-221. 




7. Latent-Trait-Modelle 



1 . Was sind die gemeinsamen Grundannahmen aller Latent-Trait-Modelle? 

2. Welche speziellen Annahmen macht das Rasch-Modell, und welche spezifi- 
schen Vorziige ergeben sich daraus? 

3. Welche Weiterentwicklungen haben sich aus dem Rasch-Modell ergeben und 
wo liegen die wichtigsten Anwendungsbereicbe fur die Padagogisch-psycho- 
logische Diagnostik? 

4. Welche anderen probabilistischen Modelle gehen von ahnlichen Annahmen 
aus wie die Latent-Trait-Modelle? 



Vorstrukturierende Lesehilfe 

Zunachst werden die fur alle Latent-Trait-Modelle grundlegenden Begriffe, namlich 
der Begriff der Itemcharakteristik und der lokalen stochastischen Unabhangigkeit, 
eingefiihrt (7.1). Danach wird das Rasch-Modell, das aus dem allgemeinen Ansatz 
durch die Annahme logistischer Itemcharakteristiken hervorgeht, mit seinen speziel- 
len Vorziigen (speziftsche Objektivitat, Existenz erschopfender Statistiken) dargestellt 
(7.2). Der Ansatz des Rasch-Modells wurde in verschiedene Richtungen weiterent- 
wickelt: Das linear-logistische Modell erlaubt es, Hypothesen liber das Zustandekom- 
men der Itemschwierigkeiten zu testen (7.3). Das mehrkategoriale Rasch-Modell lafit 
nicht nur zwei Antwortkategorien (richtig/falsch), sondern mehrere qualitativ oder 
quantitativ verschiedene Kategorien zu (7.4). Das zweiparametrige logistische Mo- 
dell (Birnbaum-Modell) erweitert den Ansatz des Rasch-Modells um einen zusatz- 
lichen Itemparameter, der Unterschiede in der Itemtrennscharfe ausdriickt, das drei- 
parametrige Modell fiigt einen weiteren Parameter fur die Ratewahrscheinlichkeit 
hinzu (7.5). Im letzten Abschnitt (7.6) wird auf andere probabilistische Modellansat- 
ze hingewiesen, die ebenfalls von der Annahme der lokalen Unabhangigkeit ausge- 
hen und damit dem Latent-Trait-Ansatz nahestehen. 



7.1 Der Latent-Trait-Ansatz 

Wahrend die klassische Testtheorie auf alle psychologischen MaBe anwendbar ist (bei 
jedem MaB laBt sich die Frage nach Reliabilitat und Validitat stellen), machen Latent- 
Trait-Modelle mehr oder weniger restriktive Annahmen liber das Zustandekommen 
eines Testwerts. Ziel ist es, den Test so zu konstruieren, daB er diesen Annahmen ent- 
spricht. Wenn das gelingt, ergeben sich daraus die aus dem entsprechenden Modell 
ableitbaren Vorziige. 
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7. Latent-Trait-Modelle 



Allen Latent-Trait-Modellen gemeinsam ist die Annahme eines latenten Kontinu- 
ums (Fahigkeit, Eigenschaft) E, (griechisch: ksi), auf dem jede Person v eine bestimm- 
te Auspragung 5 V aufweist. Die Wahrscheinlichkeit, daB eine Person v ein bestimm- 
tes Item i lost, hangt von ihrem Wert auf dem latenten Kontinuum ab. 

Im einfachsten Fall kann man annehmen, daB es fur jedes Item einen kritischen 
Wert auf E, gibt, ab dem die Aufgabe gelost wird. Diese Annahme liegt dem Guttman- 
Modell zugrunde, einem deterministischen Modell, das als Vorlaufer der spater ent- 
wickelten probabilistischen Latent-Trait-Modelle anzusehen ist. Der Grundgedanke 
des Guttman-Modells laBt sich am einfachsten am Beispiel der KorpergroBe illustrie- 
ren: Wir nehmen an, Personen wiirden in folgender Weise nach ihrer KorpergroBe 
befragt: “Sind Sie groBer als 150 cm?“, “Sind Sie groBer als 160 cm?” usw. Die Di- 
mension E, ist hier die wahre KorpergroBe der Person. Die Wahrscheinlichkeit, daB ein 
Item mit “ja” beantwortet wird, springt jeweils an einer bestimmten Stelle von Null 
auf Eins (Das Item “Sind Sie groBer als 150 cm?” wird von Personen bis unter 150 cm 
zu 0%, von Personen ab 150 cm zu 100% bejaht oder “gelost”). Abbildung 7.1 zeigt 
eine Guttman-Skala mit drei Items unterschiedlicher Schwierigkeit. 




Abbildung 7.1: Guttman-Skala mit drei Items. Fur jedes Item steigt an einer bestimmten Stelle 
des Merkmalskontinuums E, die Losungswahrscheinlichkeit p von Null auf Eins. 

Wenn Items eine perfekte Guttman-Skala bilden, darf es nicht vorkommen, daB 
eine Person, die ein schwierigeres Item gelost hat, ein leichteres verfehlt. Ordnet man 
die Items der Schwierigkeit nach aufsteigend an, so kann man der Angabe “der 
Proband hat k Aufgaben gelost” zugleich entnehmen, welche Aufgaben er gelost hat, 
namlich alle Aufgaben mit Nummer 1 bis k und keine der Aufgaben ab Nummer k + 1 . 

Die Guttman-Skala ist zwar ein einfaches und zunachst plausibles Modell, doch 
ist bei psychologischen Daten kaum damit zu rechnen, daB es in dieser strikten Form 
erfiillt ist. Es kommt praktisch immer vor, daB Probanden ein leichtes Item, das sie 
bei ihrer Trefferzahl gelost haben miiBten, doch verfehlt haben, oder daB sie einzelne 
schwierigere Aufgaben iiberraschend doch losen, nachdem sie mehrere leichtere nicht 
losen konnten. Die Annahme, daB die Losungswahrscheinlichkeit an einer bestimm- 
ten Stelle von Null auf Eins springt, ist sehr restriktiv und in der Testkonstruktion 
kaum zu erfiillen. Um anzugeben, inwieweit eine Guttman-Skala wenigstens anna- 
herungsweise realisiert ist, wurden verschiedene Reproduzierbarkeitskoeffizienten 
(sie geben an, inwieweit aus den Trefferzahlen die genauen Antwortmuster “repro- 
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Beispiel 7.1: Lokale Unabhangigkeit bei festem t, und Zustandekommen einer Item- 
korrelation in einer in ^ variierenden Population. 

Wir nehmen an, eine Person mit der Fahigkeitsauspragung £,i lose Item i mit der 
Wahrscheinlichkeit p(i+/qi) = 0.1 und Item j mit p(j+/^i) = 0.3. Ftir eine andere 
Person mit der Fahigkeitsauspragung t ,2 seien die entsprechenden Losungswahr- 
scheinlichkeiten p(i+/^ 2 ) = 0.7 und p(j+/^ 2 ) = 0.9. Nimmt man fur jede Person 
an, daB die Itembeantwortung unabhangig erfolgt, so ergeben sich die als Tabelle 
7.1a und 7.1b angegebenen Vierfeldertafeln. 



Tabelle 7.1a 

Losungswahrscheinlichkeit 
filr Person 1 



Tabelle 7.1b 

Losungswahrscheinlichkeit 
fur Person 2 



Item i 



Item i 



+ 



+ 

Item j 



.03 


.27 


.07 


.63 



.1 .9 



.3 

.7 



.63 


.27 


.07 


.03 



.7 .3 



Tabelle 7.1c 

Losungswahrscheinlichkeit 
filr eine gemischte 
Personenstichprobe 



Item i 

+ 



.33 


.27 


.07 


.33 



.40 .60 



In jeder der beiden Vierfeldertafeln ist die Korrelation der beiden Items Null. Denkt 
man sich jedoch eine gemischte Personenstichprobe, bei der die Halfte der Per- 
sonen die Fahigkeitsauspragung Ej hat, die andere Halfte ^ 2 , so ergibt sich filr die 
Personengruppe die in Tabelle 7.1c angegebene Vierfeldertafel, die aus Tabelle 
7.1a und 7.1b gemittelt ist. In Tabelle 7.1c korrelieren die Items i und j offensichtlich, 
und zwar zu p=0.375. 
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7. Latent-Trait-Modelle 



duzierbar” sind) vorgeschlagen. Naheres findet man bei Borg & Staufenbiel (1989, 
Kapitel 7). 

In probabilistischen Latent-Trait-Modellen wird die deterministische Annahme, 
wonach nur Losungswahrscheinlichkeiten von Null oder Eins vorkommen, durch eine 
probabilistische Annahme iiber die Itemcharakteristik ersetzt. Jedem Wert auf dem 
latenten Kontinuum ^ wird eine Wahrscheinlichkeit zugeordnet, mit der eine Person 
mit dieser Merkmalsauspragung das Item lost. Diese Funktion, die jedem Wert von C, 
eine Losungswahrscheinlichkeit zuordnet, heiBt Itemcharakteristik des Items i und 
wird mit p(i+/^) bezeichnet. Abbildung 7.2 zeigt Beispiele, wie Itemcharakteristiken 
aussehen konnen: 

Abbildung 7.2: Itemcharakteristiken 




Die Itemcharakteristiken der Items 1, 2, 3 entsprechen dem Rasch-Modell. Die Hinzunahme 
von Item 4 ware im Birnbaum-Modell moglich. Item 5 hat eine unregelmaBig monoton stei- 
gende Itemcharakteristik. 

Verschiedene Latent-Trait-Modelle unterscheiden sich darin, welche Form der 
Itemcharakteristik sie zulassen. In Abbildung 7.2 haben die Itemcharakteristiken der 
Items 1, 2 und 3 dieselbe Form und sind nur um einen bestimmten Betrag nach rechts 
oder links verschoben, was einer unterschiedlichen Itemschwierigkeit entspricht. 
Diese drei Items geniigen dem einfachen Rasch-Modell (siehe Kapitel 7.2). Die Item- 
charakteristik von Item 4 hat dieselbe allgemeine Form, jedoch einen steileren An- 
stieg, was einer groBeren Trennscharfe entspricht. Items unterschiedlicher Trennschar- 
fe sind im Birnbaum-Modell (siehe Kapitel 7.4) zulassig. Item 5 zeigt eine ebenfalls 
monoton steigende Itemcharakteristik, die aber keinem speziellen Latent-Trait-Mo- 
dell entspricht. Eine weitere alien Latent-Trait-Modellen gemeinsame Annahme ist 
die lokale stochastische Unabhangigkeit der Items. Sie besagt, daB fur jede einzelne 
Person (bei festem “Ort” auf dem latenten Kontinuum) die Beantwortung der Items 
stochastisch unabhangig erfolgt. Formal ausgedruckt: Die Wahrscheinlichkeit, bei ge- 
gebenem Personparameter von zwei Items i und j beide richtig zu losen, ist das Pro- 
dukt der Einzelwahrscheinlichkeiten: 

[7.1] p(i+,j+£) = p(i+/£)p(j+£) 

Lokale stochastische Unabhangigkeit besagt zunachst nichts dariiber, wie in einer 
Gruppe von Personen mit beliebig verteilten Personparametem die Itemkorrelationen 
ausfallen. Sie werden im allgemeinen umso hoher sein, je groBer die Varianz der Per- 
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sonparameter ist. Beipiel 7.1 illustriert, wie bei lokaler stochastischer Unabhangig- 
keit die Itemkorrelationen aufgrund von Unterschieden in der latenten Dimension 
zustande komrnen. 

Im Unterschied zu unserem Beispiel werden in einer realen Population nicht nur 
zwei Werte von 't, vorkommen, sondern die Personparameter werden sich auf dem 
gesamten latenten Kontinuum verteilen. Je nachdem, wie diese Verteilung aussieht, 
ergibt sich hohere oder niedrigere Itemkorrelation. In einer Population ohne Varianz 
in den Personparametern ergibt sich eine Korrelation von Null. Anders ausgedruckt 
besagt also lokale Unabhangigkeit, daB alle Korrelationen zwischen den Items nur auf 
Unterschiede in der latenten Dimension zuritckgehen diirfen. Weitere Abhangigkei- 
ten (z.B. durch Faktoren, die nur bestimmten Itemgruppen gemeinsam sind) diirfen 
nicht bestehen. Da die lokale Unabhangigkeit somit beinhaltet, daB alien Items nur 
eine einzige gemeinsame latente Dimension zugrunde liegt, laBt sie sich als eine pra- 
zisere Fassung des Begriffs der Homogenitat eines Tests verstehen. 

Die Annahme eines latenten Kontinuums, der Begriff der Itemcharakteristik und 
die Annahme der lokalen stochastischen Unabhangigkeit sind alien Latent-Trait- 
Modellen gemeinsame Grundziige. Die einzelnen Modelle unterscheiden sich in den 
Annahmen, die sie iiber die Form der Itemcharakteristik machen, und den daraus 
ableitbaren Folgerungen. Das im deutschen Sprachraum bekannteste Modell ist das 
einparametrige logistische Modell nach Rasch, das durch den von Fischer (1968) her- 
ausgegebenen Band “Testtheorie” bald Popularity gewann. Eine umfassende Darstel- 
lung des Rasch-Modells und der darauf gegriindeten weiteren Entwicklung logisti- 
scher Modelle findet man bei Fischer (1974; 1983). 



7.2 Das Rasch-Modell 



Im Rasch-Modell ist jede Person v durch einen Personparameter 5 V und jedes Item i 
durch einen Itemparameter C. (griechisch: sigma. Der Itemparameter hat aber nichts 
mit dem Begriff der Standardabweichung zu tun) gekennzeichnet. Die Itemcharakte- 
ristik ist dann die logistische Funktion dieser beiden Parameter: 



[7.2] 



p(i+£ »,0 .) = 



exp(^v - a, ) 

1 + exp(^v - cti ) 



Die Items 1, 2 und 3 in Abbildung 7.2 entsprechen dem Rasch-Modell. Die Form der 
Itemcharakteristik unterscheidet sich nur geringfirgig von der Normalverteilungsfunkti- 
on, ist aber mathematisch leichter handhabbar. Ausgehend von einer Guttman-Skala kann 
man sich vorstellen, daB eine solche Itemcharakteristik zustande kommt, wenn die Ek- 
ken der Sprungfunktion durch Zufallseinflusse (die Person oder auch das Item schwan- 
ken in ihrer Position auf dem Kontinuum) abgerundet werden. 

Der Personparameter ist als der Ort der Person auf der latenten Dimension inter- 
pretierbar. Je groBer der Personparameter ist (je weiter rechts die Person auf dem la- 
tenten Kontinuum plaziert ist), desto groBer ist die Losungswahrscheinlichkeit. Der 
Itemparameter driickt die Schwierigkeit eines Items aus: Die Itemcharakteristiken 
haben alle dieselbe Form, die nur nach rechts (schwierige Items) oder links (leichte 
Items) verschoben ist. Wenn man in Formel [7.2] Oi = 5 V einsetzt, so ergibt sich eine 
Losungswahrscheinlichkeit von 0.5. Der Itemparameter Gi gibt somit die Stelle des 
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latenten Kontinuums an, an der die Losungswahrscheinlichkeit 0.5 ist. In Abbildung 
7.2 hat von den drei Rasch-Items (1, 2 und 3) Item 3 den groBten, Item 1 den klein- 
sten Schwierigkeitsparameter. Der Einfachheit der Darstellung wegen wird die Item- 
Charakteristik [7.2] bisweilen auch in der folgenden Form (delogarithmierte Parame- 
ter) geschrieben: 

[7.3] p (i+/a& ) = - r ^; ei 

mit 0v = exp(^v ) und £i = exp( - Cti ) 

(0 = griechisch: theta, £ = griechisch: epsilon) 

Das Rasch-Modell weist folgende besonderen Vorziige auf: Die Existenz erschop- 
fender Statistiken, die spezifische Objektivitat der Parameterschatzung und die Mog- 
lichkeit darauf aufbauender Modellkontrollen. Das soli im folgenden kurz erlautert 
werden: 

Im Rasch-Modell ist die Trefferzahl eine erschopfende Statistik fur den Personpa- 
rameter. Praktisch bedeutet das, daB die gesamte Information liber den Fahigkeitsgrad 
der Person in der Trefferzahl enthalten ist (eine formal prazise Darstellung des Be- 
griffs findet man bei Fischer, 1974, Kapitel 12.2 - 12.4). Eine nahere Analyse des Ant- 
wortpattems, um festzustellen, bei welchen Items die Person ihre Treffer erzielt hat, 
kann zu keiner verbesserten Schatzung ihres Fahigkeitsparameters fiihren, eriibrigt 
sich also insoweit. Wenn ein Test dem Rasch-Modell entspricht, so ist damit die hau- 
fig nur der Einfachheit wegen gewahlte Auswertungsart, wonach die Anzahl der Rich- 
tigen festgestellt und als Testrohwert verwendet wird, auch als die optimale Auswer- 
tung theoretisch begriindet. 

Der mathematische Beweis dafiir, daB die Trefferzahl tatsachlich die gesamte In- 
formation enthalt, die man iiber den Personparameter gewinnen kann, kann hier nur 
skizziert werden. Er wird gefiihrt, indem man zeigt, daB bei gegebener Trefferzahl die 
bedingte Wahrscheinlichkeit fur die einzelnen Antwortpattems nicht vom Personpa- 
rameter abhangt, sondern nur von den Itemparametern - anders gesagt: keine Infor- 
mation liber den Personparameter, sondern nur iiber die Itemparameter enthalt. Fiir 
den Fall, daB der Test nur aus zwei Items besteht, ist dieser Beweis leicht zu fiihren. 
In Beispiel 7.2 wird gezeigt, daB die Wahrscheinlichkeit, daB eine Person mit 1 Tref- 
fer das erste (und nicht das zweite) Item gelost hat, nicht vom Personparameter ab- 
hangt, sondern nur von den beiden Itemparametern. Das Ergebnis laBt sich auf mehr 
als zwei Items verallgemeinem: die bedingte Wahrscheinlichkeit, daB bei r Treffern 
die einzelnen Items gelost/nicht gelost sind, hangt nur vom Verhaltnis der Itemschwie- 
rigkeiten, nicht aber vom Personparameter ab. Den vollstandigen Beweis mit belie- 
big vielen Items und Personen findet man bei Fischer, 1974, Kapitel 13.5. 

Parameterschatzung und Modellkontrollen: Die zwar rechnerisch aufwendigste, 
aber theoretisch am besten begriindete Methode zur Schatzung der Itemparameter ist 
die CML-Schatzung (Conditional-Maximum-Likelihood-Schatzung). Dabei wird die 
Eigenschaft des Modells, daB die Information iiber die Personparameter (enthalten in 
der Trefferzahl) von der Information iiber die Itemparameter (enthalten in der Vertei- 
lung der Treffer auf die Items bei gegebener Trefferzahl) separierbar ist, voll genutzt. 
Es wird nur die von den Personparametern unabhangige Information zur Schatzung 
der Itemparameter verwendet (die mathematische Ableitung und die rechnerische 
Durchfiihrung der CML-Schatzung sind aufwendig und konnen hier nicht dargestellt 
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Beispiel 7.2: Berechnung der bedingten Wahrscheinlichkeit, daB eine Person v, 
die bei zwei Items r = 1 Treffer erzielt hat, diesen Treffer beim ersten (und nicht 
beim zweiten) Item erzielt. 



Wir gehen von der Itemcharakteristik in der Schreibweise von Formel [7.3] aus 
und berechnen zunachst die Wahrscheinlichkeit, daB die Person v das Item 1 lost 
und das Item 2 verfehlt, also das Antwortmuster “10“ liefert. Aufgrund der loka- 
len Unabhangigkeit ist das das Produkt der beiden Einzelwahrscheinlichkeiten: 



0V £l ©V £2 ©v £l 

p( 1 0 / a ) = I + 0V e , • [ 1 ‘TToTeIJ = (1 +0v£i)(1 + 0v£2) 

Des weiteren brauchen wir die Wahrscheinlichkeit, daB die Person v genau einen 
Treffer erzielt. Dazu haben wir die Wahrscheinlichkeiten fur die beiden Moglich- 
keiten, die zu r = 1 Treffer fiihren, namlich das Antwortmuster “10“ und “01”, 
zu addieren. 

Ftir die Wahrscheinlichkeit, daB die Person das Antwortmuster “01” erzielt, er- 
halten wir (Ableitung analog zur Rechnung fur “10”): 



p(0 l/0v) 



1 

1 + 0V Ei 



Die Addition der beiden Moglichkeiten ergibt: 



Qv £2 
1 + 0v £2 



p ( r = 1 / 0v ) = p ( 1 0 / ©v ) + p ( 0 1 / 0v) 

Die bedingte Wahrscheinlichkeit, daB die Person v das Antwortmuster “10” hat, 
wenn sie r = 1 Treffer erzielt hat, erhalt man, indem man die entsprechenden 
Wahrscheinlichkeiten dividiert (Anteil der Falle mit Muster “10” an der Ge- 
samtheit aller Falle, die zu r = 1 fiihren): 



P 



( 1 0 / r = 1, ©v) = 



p( 1 0/Qy) 

p ( r = 1 / ©v ) 



_ © v £ i (It- 0\ £ I ) ( 1 -+- ©v £ 2 ) 

(1 + ©V £| ) (1 + ©V £ 2 ) ©V (£l + £ 2 ) 

Nach Kiirzen erhalt man dann das Ergebnis: 



P 



( 1 0/r= 1 , 0v ) = 



£1 

£] + £2 



Man sieht, daB alle Ausdrucke, die den Personparameter enthalten, durch Kiir- 
zen weggefallen sind. Die bedingte Wahrscheinlichkeit, daB Item 1 richtig ist, 
wenn insgesamt r = 1 Treffer erzielt wurde, hangt somit nicht vom Personpara- 
meter ab, sondern nur von den Itemparametern. Bei bekannter Trefferzahl (hier: 
r = 1) enthalt somit das Antwortmuster (Item 1, nicht Item 2 wurde gelost) kei- 
ne weitere (d.h. iiber die Trefferzahl hinausgehende) Information iiber den Per- 
sonparameter, sondern lediglich Information iiber die Itemparameter. 
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werden. Die Durchfiihrung erfordert auch bei kleineren Itemzahlen EDV-Einsatz. Na- 
heres findet man bei Fischer, 1974, Kapitel 14). Als Folge davon hangt das Ergebnis 
einer CML-Schatzung der Itemparameter auch nicht davon ab, wie sich in der spezi- 
ellen Stichprobe die Personparameter verteilen. Praktisch bedeutet das, daB eine 
CML-Schatzung (im Rahmen der Schatzgenauigkeit) immer zum selben Ergebnis 
fiihren muB, egal an welcher Teilstichprobe von Personen sie vorgenommen wird. 
AuBerdem muB die Schatzung (wieder abgesehen von Fragen der Schatzgenauigkeit) 
immer zum selben Ergebnis fiihren, wenn sie fur eine beliebige Teilmenge von Items 
vorgenommen wird. Diese Eigenschaft des Modells (daB die Itemparameter unabhan- 
gig von den Personparametem geschatzt werden konnen und daB sie sich nicht an- 
dern, wenn modellkonforme Items hinzugefiigt oder weggelassen werden) nennt man 
spezifische 0 bjektivitat (friiher wurde bisweilen der irrefiihrende Ausdruck “Popula- 
tionsunabhangigkeit” verwendet). 

Die Priifung der Modellgeltung baut auf der speziftschen Objektivitat der CML- 
Schatzung auf. Das Datenmaterial wird auf moglichst viele verschiedene Arten (z.B. 
nach der Trefferzahl in Personen mit iiberdurchschnittlicher versus unterdurchschnitt- 
licher Trefferzahl; oder danach, ob sie ein bestimmtes Item gelost/ nicht gelost ha- 
ben; oder nach verschiedenen AuBenkriterien wie Alter, Geschlecht, Schulbildung 
usw.) unterteilt und jeweils aus den verschiedenen Teil-Datensatzen getrennt die Item- 
Parameter geschatzt. Mit Hilfe von Signifikanztests kann iiberpruft werden, ob die 
CML-Schatzungen voneinander verschieden sind, was bei Modellgeltung nicht der 
Fall sein darf. Sofern nur bei einzelnen Items Differenzen auftreten, kann man diese 
Items eliminieren und erneut priifen, ob die verbleibenden Items nunmehr eine Rasch- 
homogene Skala bilden. Diese Uberpriifung sollte - wie immer, wenn eine Testrevi- 
sion anhand der Daten erfolgt ist - an neuem, unabhangigen Datenmaterial erfolgen. 

Neben der Methode der CML-Schatzung fur die Itemparameter und den darauf auf- 
bauenden Signifikanztests zur Modellkontrolle gibt es eine Reihe anderer Parameter- 
Schatzverfahren und andere Methoden zur Priifung der Modellgeltung. Diese sind z.T. 
rechnerisch einfacher, aber theoretisch weniger gut begriindet (Naheres siehe Fischer, 
1974, 1983). 

Im Unterschied zum Testautor interessieren den Testanwender weniger die Item- 
Parameter als die Personparameter. Wenn die Itemparameter bekannt sind, konnen die 
Personparameter aus den Trefferzahlen geschatzt werden. Da die Schatzwerte fur die 
Personparameter letztlich nur eine monotone Transformation der Trefferzahl sind (je 
mehr Treffer, desto hoher der geschatzte Personparameter), ist im allgemeinen wohl 
nicht zu erwarten, daB sich an den Korrelationen des Tests mit AuBenkriterien viel 
andert, wenn man die geschatzten Personparameter anstelle der Trefferzahl zur Vor- 
hersage benutzt. Das zeigte sich z.B. beim Mannheimer Test zur Erfassung des phy- 
sikalisch-technischen Problemlosens (MTP von Conrad, Baumann & Mohr, 1980), 
bei dem sowohl fur die Trefferzahl als auch fur die geschatzten Personparameter Kri- 
teriumskorrelationen berechnet wurden. Die Unterschiede in den Korrelationen wa- 
ren gering und unsystematisch. 

Vom Modellansatz her eignet sich das einfache Rasch-Modell besonders fur Lei- 
stungstests ohne wesentliche Speed-Komponente und fur Fragebogen mit nur zwei 
Antwortmoglichkeiten. Beispiele fur Anwendungen in unterschiedlichen Bereichen 
sind bei Fischer (1974, 1983) referiert. Publizierte Tests, bei denen neben der Analy- 
se nach der klassischen Testtheorie auch Rasch-Analysen der Items durchgefuhrt 
wurden und Umrechnungstabellen von Rohwerten in geschatzte Personparameter 
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angegeben sind, sind u.a. der oben genannte Mannheimer Test zur Erfassung des phy- 
sikalisch-technischen Problemlosens von Conrad et al.( 1980), der Anstrengungsver- 
meidungstest von Rollett & Bartram (1977) und das Adaptive Intelligenz-Diagnosti- 
kum von Kubinger & Wurst (1980). 



7.3 Das linear-logistische Modell 



Im einfachen Rasch-Modell ist jedes Item durch einen Parameter gekennzeichnet, der 
die Schwierigkeit des Items angibt. Im linear-logistischen Modell wird dieser Para- 
meter in additive Anteile zerlegt, die fur das Zustandekommen der Itemschwierigkeit 
verantwortlich sind. So kann die Losung einer Aufgabe mehrere Teilschritte (z.B. 
Anwendung bestimmter Regeln) erfordem, von denen jeder zur Schwierigkeit bei- 
tragt. Ziel ist es, nicht nur die Aufgabenschwierigkeiten anzugeben, sondern auch die 
Schwierigkeiten der einzelnen fur die Losung erforderlichen Operationen. 

Wie beim einfachen Rasch-Modell ist die Wahrscheinlichkeit, daB Proband v Item 
i lost, durch die logistische Funktion beschrieben: 



p(i + O, ) = 



exp(q» - a, ) 

1 + exp(£v - a ) 



Der Itemparameter Ci seinerseits wird als lineare Funktion der sogenannten "Ba- 
sisparameter” t|j erklart: 



[7.4] Oi = E qu T]j + c 

j 

mit CTi = Itemschwierigkeitsparameter fur Item i 
T|j = Schwierigkeit von Operation j 

q- = Gewichtszahl fur das Vorkommen von Operation j in Item i (s. unten) 

c = beliebig wahlbare Normierungskonstante (z.B. die Zahl Null). Ihre 

Hinzunahme in Formel [7.4] driickt aus, daB die Itemparameter nur 
bis auf eine additive Konstante bestimmt sind, also auf einer Diffe- 
renzenskala liegen. 

So z.B. analysierte Spada (1976) die Schwierigkeit von Aufgaben aus dem Bereich 
der Mechanik, u.a. Aufgaben zur Ubertragung von Drehrichtungen in Raderwerken. 
Zur Losung der Aufgaben waren 6 Regeln anzuwenden, z.B.: 

Regel 1: Zwei mit ihren Umfangen aufeinander stoBende Rader haben 
gegenlauftge Drehrichtung. 

Regel 2: Zwei Rader, die fest auf einer gemeinsamen Achse sitzen, haben 
gleichlauftge Drehrichtung. 

... usw. 

Jede Aufgabe zeigte ein mehr oder weniger komplexes Raderwerk, so daB zur 
Losung mehrere Regeln erforderlich sein und auch einzelne Regeln mehrfach zur 
Anwendung kommen konnten. In Formel [7.4] sind dann die T|j die Schwierigkeiten 
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der einzelnen Regeln und die Haufigkeiten, mit denen die Regeln in den einzelnen 
Items angewandt werden miissen. 

Die Basisparameter des linear-logistischen Modells lassen sich ebenfalls mit der 
CML-Methode speziftsch objektiv schatzen. Die Hypothesen iiber die Zusammenset- 
zung der Itemschwierigkeiten aus den Basisparametem konnen gepriift werden, in- 
dem man die Itemschwierigkeiten aus dem einfachen Rasch-Modell schatzt und da- 
mit die Schwierigkeiten vergleicht, die sich aufgrund der Schwierigkeitsbeitrage der 
beteiligten Operationen ergeben miiBten. Die Signiftkanz der Abweichungen kann mit 
einem Likelihood-Quotienten-Test gepriift werden. Weitere Priifungen sind moglich, 
indem man die Basisparameter aus verschiedenen Teilmengen von Personen und 
Items schatzt (Naheres siehe Scheiblechner, 1975; Nahrer, 1980). Aufgrund der spe- 
zifischen Objektivitat miiBten die Schatzungen im Rahmen der Schatzgenauigkeit 
iibereinstimmen. 

Anwendungen des linear-logistischen Modells: Das linear-logistische Modell bie- 
tet sich an, wenn es darum geht, einen Stoff abzufragen, der die Anwendung einer be- 
grenzten Zahl von Regeln erfordert. Eine Reihe von Anwendungen dieser Art ist bei 
Fischer (1974) dargestellt. Im Idealfall konnte es gelingen, die Determinanten der 
Itemschwierigkeiten voll aufzuklaren und einen beliebig groBen Itempool mit Items 
bekannter Schwierigkeit zu generieren. Dieses Ziel ist allerdings bisher nirgends voll 
erreicht worden: 

Spada (1976) muBte einige seiner Aufgaben zur Mechanik nachtraglich ausschei- 
den, weil sie dem Rasch-Modell nicht geniigten. Die Erklarung der Itemschwierig- 
keiten aus den Basisparametem gelang nur unvollstandig: Die Abweichungen der 
Itemschwierigkeiten von den aufgrund der Basisparameter vorhergesagten Werten 
waren zwar numerisch gering, aber signifikant. Die Schatzung der Basisparameter aus 
verschiedenen Teilstichproben ergaben ebenfalls zum Teil signifikante Unterschiede. 

Verschiedene Autoren befaBten sich mit der Analyse von Items nach dem Vorbild 
des Matrizen-Tests: So konstruierte Formann (1973, zitiert nach Hornke & Habon, 
1984) 42 Items, deren Schwierigkeiten er auf 10 Basisparameter (Art der zu erken- 
nenden Regel, Richtung der Regelgeltung, verschiedene Materialeigenschaften usw.) 
zuriickfiihrte. Nahrer (1980) versuchte fur 10 neu konstruierte Items die Schwierig- 
keiten aus Formanns Basisparametem vorherzusagen. Aufgrund seiner Daten schlug 
er eine modifizierte Operationsstruktur vor, die auch fur Formanns Daten eine ver- 
besserte Anpassung brachte. Hornke & Habon (1984) versuchten Nahrers (1980) Er- 
gebnisse zu replizieren, indem sie 12 von Nahrers Items zusammen mit 14 neu kon- 
struierten analysierten. Dabei ergaben sich schon beim einfachen Rasch-Modell z.T. 
signifikante Abweichungen. Die Schatzungen fur die Basisparameter stimmten mit 
den Angaben Nahrers nur zum Teil iiberein, die Itemschwierigkeiten wichen von den 
aus den Basisparameter berechneten Werten signifikant ab. Erst bei nachtraglichem 
AusschluB von 6 Items verbesserte sich das Bild. 

Ahnlich erging es Gittler (1984) bei dem Versuch, Wiirfelaufgaben zur Erfassung 
des raumlichen Vorstellens (ahnlich dem Subtest “Wiirfel” im Intelligenz-Struktur- 
Test von Amthauer, 1970) in ihrer Schwierigkeit zu erkliiren. Als Ergebnis eines lan- 
geren formalen und inhaltlichen Analyseprozesses gelang es ihm schlieBlich, 17 Items 
zu finden, die dem Rasch-Modell geniigten und deren Schwierigkeiten er auf 9 Ba- 
sisparameter (Zahl der erforderlichen Losungsschritte, Musterkombination, Plazie- 
rung der Losung unter den Antwortaltemativen usw.) zuriickfiihren konnte. In einer 
Kreuzvalidierung (Uberpriifung an neuen, unabhangigen Daten) waren die 17 Items 
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wieder Rasch-konform, und es lieB sich wieder dieselbe linear-logistische Modell- 
struktur mit 9 Basisparametern anpassen. Die Schatzwerte fiir die Parameter stimm- 
ten aber nur zum Teil iiberein, was Gittler auf den unterschiedlichen Aufgabenkon- 
text (die 17 Aufgaben waren zwischen anderen eingebettet) zuriickfiihrt. 

Zusammenfassend laBt sich feststellen, daB es zwar immer wieder gelingt, einen 
Rasch-konformen Itemsatz zu finden und die Itemschwierigkeiten auf Basisparame- 
ter zuriickzufiihren. Die Versuche, die Basisparameter an anderen Stichproben nume- 
risch zu replizieren oder die Schwierigkeiten neuer Items vorherzusagen, haben al- 
lerdings nur begrenzte Erfolge gehabt. Das Ziel, in ihrer Schwierigkeit perfekt 
vorhersagbare Itempools zu konstruieren, steht noch in weiter Feme, wenn es iiber- 
haupt realistisch ist. 



7.4 Das mehrkategoriale Rasch-Modell 



Der Ansatz des Rasch-Modells laBt sich auf Items mit mehr als zwei Antwortkatego- 
rien verallgemeinem. So konnte man z.B. einen Interessenstest fiir 4 Interessensrich- 
tungen (z.B. Kunst, Naturwissenschaften usw.) konstruieren, bei dem den Probanden 
in jedem Item 4 Tatigkeiten zur Wahl vorgelegt werden. Jede der 4 Tatigkeiten ent- 
stammt einem anderen der vier Interessensgebiete, und bei der Auswertung des Tests 
wird ausgezahlt, wie oft sich der Proband fiir jedes Gebiet entschieden hat. Da die 
Gesamtzahl der Wahlen der Itemzahl entsprechen muB, kann auf diese Art nur die 
relative Auspragung der Interessen untereinander zum Ausdruck kommen: Kein 
Proband kann auf alien Interessensrichtungen hohe oder auf alien Interessensrichtun- 
gen niedrige Werte haben, auch wenn er sich fiir alle vier Gebiete sehr stark oder fiir 
alle vier Gebiete sehr wenig interessiert (das Beispiel ist an den Berufs-lnteressen- 
Test BIT von Irle und Allehoff, 1984, angelehnt. Die Art der Itemkonstruktion beim 
BIT ist aber komplizierter, da 9 Interessensrichtungen mit Hilfe von Items mit 4 
Wahlalternativen abgefragt werden). Jede Person v ist dann durch 4 Personparameter 
, ^v (2) , . . ^v ,4> ) gekennzeichnet, die ihre Tendenz ausdrucken, sich fiir jedes der 4 
Interessensgebiete zu entscheiden. Analog dazu ist jedes Item durch 4 Itemparameter 
(Oi 01 , Cfi (2) , . . Oi (4) ) gekennzeichnet, die die “Schwierigkeit” (Unattraktivitat) der 
Altemativen (Interessensgebiete) in diesem Item ausdriicken. Die Wahrscheinlichkeit, 
daB die Person v bei Item i das Interessensgebiet g wahlt, soli sich gemaB den Mo- 
dellannahmen wie folgt ergeben: 



[7.5] 



p(g+/v, i) = 



exp(4»‘ gl - Oi gl ) 
E exp (£»® -<7i a> ) 

j 



Bei Formel [7.5] wurde die in der Rasch-Fiteratur iibliche Notation iibernommen. Die 
in Klammem hochgestellten Indizes sind keine Exponenten, sondem werden ledig- 
lich hochgestellt, um im FuBraum mehr Platz zu behalten. Um sie von Exponenten 
zu unterscheiden, sind sie eingeklammert. 

Ahnlich wie beim einfachen, zweikategorialen Rasch-Modell gibt es auch im mehr- 
kategorialen Rasch-Modell erschopfende Statistiken: Die Haufigkeiten, mit denen 
sich eine Person fiir die einzelnen Interessensrichtungen entschieden hat, sind er- 
schopfende Statistiken fiir ihre Personparameter. Wenn sich ein Proband bei 20 Items 
9 mal fiir das Interessensgebiet “Kunst” entschieden hat, so ist in dieser “Trefferzahl” 
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die gesamte Information iiber seine Interessensauspragung (relativ zu den Interessen 
in den anderen Gebieten) enthalten. Es eriibrigt sich, naher zu analysieren, bei wel- 
chen Items er “Kunst” gewahlt/nicht gewahlt hat. 

Die Haufigkeiten, mit denen die vier Altemativen eines Items gewahlt wurden, sind 
erschopfende Statistiken fur die Itemparameter. Ahnlich wie beim zweikategorialen 
Rasch-Modell stehen auch beim mehrkategorialen Rasch-Modell zur Schatzung der 
Itemparameter CML-Schatzverfahren zur Verfiigung, die eine speziftsch objektive 
Schatzung (siehe Kapitel 7.3) der Itemparameter ermoglichen. Auch hier kann die 
Modellgeltung gepriift werden, indem man den Datensatz nach unterschiedlichen 
Gesichtspunkten ( Personen mit hohen/ niedrigen Punktwerten in der Interessensrich- 
tung “Kunst”; nach AuBenkriterien wie Geschlecht, Alter, Schulnoten usw.) unterteilt 
und in den Teilstichproben getrennt die Itemparameter schatzt. Bei Modellgeltung 
miissen die aus den verschiedenen Datensatzen gewonnenen Schatzungen fur die 
Itemparameter (im Rahmen der Schatzgenauigkeit) iibereinstimmen. Letzteres kann 
mit Hilfe von Signifikanztests gepriift werden. 

Zur Interpretation der Parameter: Aufgrund der Aufgabenstellung, bei der die Per- 
son genau eine der vier Interessensrichtungen zu wahlen hat, ist offensichtlich, daB 
das Testergebnis nicht eine Angabe iiber die absolute Hohe der Interessensauspragun- 
gen in den einzelnen Gebieten sein kann, sondern nur eine Angabe iiber das relative 
tiberwiegen der einzelnen Interessensrichtungen gegeniiber den anderen. Bei einer 
Person, die in alien Gebieten hohe Interessen hat, konnen sich die Wahlen genauso 
verteilen wie bei einer anderen, die an alien Gebieten wenig Interesse hat. 

Die Tatsache, daB die Daten keine Information iiber die absolute Hohe der Interes- 
sensauspragung enthalten, sondern nur iiber die relative Hohe der Interessensauspra- 
gung in einem Gebiet gegeniiber den anderen Gebieten, druckt sich im Modell darin 
aus, daB die vier Personparameter nur bis auf eine frei wahlbare additive Konstante 
bestimmt sind. Man kann diese Konstante z.B. so wahlen, daB der Mittelwert der vier 
Personparameter fur jede Person Null ist. Die Starke jeder Interessensrichtung wird 
dann relativ zum Durchschnitt aller vier Interessen angegeben. 

Analoges gilt fur die Itemparameter: Aus den Daten erfahrt man, wieviele Perso- 
nen sich fur die einzelnen Altemativen entschieden haben. Daraus ist aber nicht er- 
sichtlich, ob alle vier Altemativen hoch attraktiv oder unattraktiv waren, sondern nur 
die relative Attraktivitat der einzelnen Alternative im Vergleich zu den anderen. De- 
mentsprechend sind auch die Itemparameter nur bis auf eine additive Konstante fest- 
gelegt. Auch hier erscheint es naheliegend, fur jedes Item den Mittelwert der Itempa- 
rameter auf Null festzulegen und damit die Attraktivitat jeder Alternative relativ zur 
durchschnittlichen Attraktivitat aller vier Altemativen anzugeben. 

Beispiel 7.3 illustriert an einem Zahlenbeispiel den durch Formel [7.5] ausgedriick- 
ten Zusammenhang zwischen den Parametern und den Wahlwahrscheinlichkeiten fur 
die einzelnen Altemativen und die beliebige Wahl einer Normierungskonstanten fur 
die Person- und Itemparameter. 

Im vorliegenden Beispiel der vier Interessensrichtungen sind die vier Antwortka- 
tegorien offensichtlich qualitativ verschieden. In anderen Fallen kann sich die Frage 
stellen, ob sich die Kategorien nicht ordnen und auf nur eine Dimension zuruckfiih- 
ren lassen: So konnten z.B. in einem Fragebogen die Antwortmoglichkeiten “Ja / ? / 
Nein” Ausdruck unterschiedlich starker Zustimmung sein, oder es konnten sich zu- 
nachst fur qualitativ gehaltene Kategorien (z.B. intropunitive, impunitive und extra- 
punitive Reaktionen im Rosenzweig Picture-Frustration-Test nach Rauchfleisch, 
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Beispiei 7.3: Berechnung der Wahlwahrscheinliclikeiten fur die einzelnen Antwortalter- 
nativen eines Items im mehrkategorialen Rasch-Modell 

Wir nehmen an, eine Person v habe fur vier Interessensrichtungen folgende Personparamet 
£."> = 0, fy 2 ' = +1, ^.< 31 = -2, e,v' 4> = +3 

Die Itemparameter fur Item i (“Schwierigkeit” oder Unattraktivitat der filr die einzelnen 
Interessensgebiete angebotenen Altemativen, von denen die Person eine ankreuzen muB) 
seien: 

a," 1 = +1 , a 121 = +2, a/ 3 ' = 0, Oi ,4 > = +3 

(a) Man berechne nach Formel [7.5] die Wahrscheinlichkeiten, mit der sich Person v bei 
Item i fur die einzelnen Altemativen entscheidet. 

(b) Man normiere Personparameter und Itemparameter jeweils auf den Mittelwert Null 
und fiihre die Berechnung nach Formel [7.5] emeut durch. 

Losung: 

a) Man berechne zunachst fur jede Kategorie j den Ausdruck exp((^® - 0 ®): 

Kategorie 1: exp(O-l) = 0.3679 

“ 2: exp(l - 2) = 0.3679 

“ 3: exp(-2 - 0) = 0.1353 

“ 4: exp(3 - 3) = 1.0000 

Z exp(^d) . obi) = 1.8708 

Damit erhalt mangemaB Formel [7.5] die Wahlwahrscheinliclikeiten fiir die Kategorien: 
Kategorie 1: 0.3679/1.8708 = 0.1966 

“ 2: 0.3679/1.8708 = 0.1966 

“ 3: 0.1353/1.8708 = 0.0723 

“ 4: 1.0000/1.8708 = 0.5345 

Man sieht, die Wahlwahrscheinlichkeit ist fiir Kategorie 4 am groBten, weil hier der Per- 
sonparameter relativ zum Itemparameter am groBten ist (die Differenz Personparameter 
minus Itemparameter ist bei den Kategorien 1 bis 3 negativ, bei Kategorie 4 Null). 

b) Um beide Parametergruppen jeweils auf den Mittelwert Null zu normieren, ziehen wir 
von den Personparametern die Zahl 0.5, von den Itemparametern 1.5 ab. Die Werte fiir 
die Parameter lauten dann: 

£»"’ = -.5, 4.' 2 ' = +.5, £, l3 > = -2.5, £, <4) = +2.5 
0i ll) = -.5, o. 121 =+.5, 0i ,3 > = - 1.5, o/ 4 ’ = +1.5 

Als nachstes berechnen wir wieder fiir jede Kategorie den Ausdmck exp(£, ® - 0 <J| ): 
Kategorie 1: exp(-.5 - (-.5)) = 1.000 

„ 2: exp(+,5 - (+.5)) = 1.000 

„ 3: exp(-2.5 - (-1.5)) = 0.368 

4: exp(+2.5-(+1.5)) = 2.718 

Z exp(£ ® - 0 ®) = 5.086 

Daraus ergeben sich die Wahl wahrscheinlichkeiten fiir die Kategorien als: 

Kategorie 1: 1/5.086 = 0.1966 

„ 2: 1/5.086 = 0.1966 

3: .368/5.086 = 0.0723 

4: 2.718/5.086 = 0.5344 

Die Wahlwahrscheinliclikeiten sind also gegeniiber der ersten Berechnung unverandert. 
Das Hinzufiigen einer Konstanten (hier: des Mittelwerts) zu alien Personparametern einer 
Person oder zu alien Itemparametern eines Items andert nichts an den Wahlwahrschein- 
lichkeiten. Anders gesagt: Die Personparameter (analog: Itemparameter) sind durch For- 
mel [7.5] nur bis auf eine beliebig wahlbare additive Konstante bestimmt. 
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1979) als Abstufungen nur einer Dimension erweisen. Solche Hypothesen konnen in 
AnschluB an die Priifung der Modellgeltung fur das mehrkategoriale Rasch-Modell 
als speziellere Hypothesen tiber die Parameter ausgedriickt und getestet werden. 



7.5 Das Birnbaum-Modell 

Wahrend das einfache Rasch-Modell nur einen Itemparameter enthalt, der die 
Schwierigkeit des Items ausdriickt und die Itemcharakteristik nach rechts oder links 
verschiebt (siehe Abbildung 7.1), enthalt das Birnbaum-Modell einen zweiten Item- 
Parameter, der die Itemcharakteristiken bei sonst gleicher Form steiler oder flacher 
ansteigen laBt. Ein steilerer Anstieg entspricht einer groBeren Trennscharfe des Items, 
weshalb dieser Parameter auch als Trennscharfeparameter bezeichnet wird. In Abbil- 
dung 7.2 bilden die Items 1, 2, 3 und 4 eine Birnbaum-Skala, wobei die Items 1, 2 
und 3 einen flacheren Anstieg der Itemcharakteristik zeigen als Item 4, bei dem die 
Itemcharakteristik einen steileren Verlauf zeigt. Die Items 1, 2 und 3 haben densel- 
ben Trennscharfeparameter, Item 4 hat einen groBeren. Im Birnbaum-Modell ist nicht 
die Summe der richtigen Losungen die erschopfende Statistik fur die Personparame- 
ter, sondem es ist eine gewichtete Summe zu bilden, wobei die Gewichtszahlen den 
Trennscharfeparametern der Items entsprechen, so daB trennscharfe Items hoher ge- 
wichtet werden als weniger trennscharfe. 

Daruber hinaus wurden verschiedene Versuche gemacht, auch Ratewahrscheinlich- 
keiten mit einzubeziehen und Strategien zur Behandlung ausgelassener Antworten 
entwickelt. Die hierfiir verfiigbaren Rechenprogramme wurden uberwiegend in den 
USA entwickelt und berucksichtigen mehr pragmatische als theoretische Gesichts- 
punkte. Einen Uberblick iiber die Schatzverfahren und eine vergleichende Diskussi- 
on von zwei Rechenprogrammen findet man bei Swaminathan & Gifford (1983). 
Weiterhin liegen Erfahrungsberichte zur Stabilitat der Schatzungen auch bei nicht mo- 
dellkonformen Daten vor. So berichten Goldman & Raju (1986) tiber eine Studie an 
realen und an simulierten Daten, in der die Schatzwerte fur die Personparameter na- 
hezu perfekt korrelierten, wenn sie der Auswertung einmal das einfache Rasch-Mo- 
dell, das andere Mai das zweiparametrige Birnbaum-Modell zugrunde legten. Zum 
gleichen Ergebnis kamen Hambleton & Cook (1983), die Simulationsstudien mit dem 
ein-, zwei- und dreiparametrigen Modell machten. Die Schatzung der Personparame- 
ter verschlechterte sich kaum, wenn der Analyse das einfache Rasch-Modell zugrun- 
degelegt wurde, obwohl das zwei- oder dreiparametrige Modell zutraf. 



Ubersicht 7.1: Die wichtigsten Varianten logistischer Modelle 
Rasch-Modell (wird auch “einparametriges logistisches Modell” genannt) 
Antwortmoglichkeiten: 2 (richtig/falsch) 

Personparameter: 1 (Fahigkeit) 

Itemparameter: 1 (Schwierigkeit) 

Linear-logistisches Modell 

Antwortmoglichkeiten: 2 (richtig/falsch) 

Personparameter: 1 (Fahigkeit) 
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Itemparameter: 1 (Schwierigkeit) Dieser Parameter wird als gewichtete 
Summe von Basisparametern (Schwierigkeit von beteiligten 
Operationen) erklart 
Mehrkategoriales Rasch-Modell 

Antwortmoglichkeiten: k (eine von k Kategorien ist anzukreuzen) 
Personparameter: k (Tendenz der Person eine bestimmte Kategorie zu 

wahlen; relative Bevorzugungstendenz gegenuber den anderen 
Kategorien) 

Itemparameter: k (“Schwierigkeiten’' der Kategorien bei diesem Item, 

relatives AusmaB in dem das Item eine jede Reaktionskategorie 
provoziert) 

Birnbaum-Modell (wird auch “zweiparametriges logistisches Modell” genannt) 
Antwortkategorien: 2 (richtig/falsch) 

Personparameter: 1 (Fahigkeit) 

Itemparameter: 2 (Schwierigkeit, Trennscharfe) 

Dreiparametriges logistisches Modell 
Antwortkategorien: 2 (richtig/falsch) 

Personparameter: 1 (Fahigkeit) 

Itemparameter: 3 (Schwierigkeit, Trennscharfe, Rateparameter) 



7.6 Dem Latent-Trait-Ansatz verwandte Modelle 

Das linear logistische Modell mit gelockerten Annahmen (LLRA-Modell = Linear 
Logistic Model with Relaxed Assumptions) 

Dieses Modell setzt voraus, daB fur jedes Item die Itemcharakteristik die im Rasch- 
Modell angenommene Form hat. Es macht jedoch keinerlei Annahmen iiber die Di- 
mensionalitat: Jedes Item kann von einer anderen latenten Dimension abhangen, und 
der Proband kann durch ebensoviele Personparameter gekennzeichnet sein, wie Items 
vorhanden sind. Ziel ist es, in Vorher-Nachher-Versuchsplanen Behandlungseffekte 
zu schatzen. Da es hier nicht darum geht, Personen MeBwerte zuzuordnen, ist das 
Modell auch nicht zur Testtheorie zu rechnen. 

Das Latent-Class-Modell 

Der theoretische Ansatz des Latent-Class-Modells ist dem der Latent-Trait-Modelle 
in vielerlei Hinsicht verwandt, wobei an die Stelle der quantitativen latenten Dimen- 
sion eine Einteilung der Personen in qualitativ verschiedene Klassen tritt. Diese Klas- 
sen sind nicht direkt beobachtbar (latent). Die Wahrscheinlichkeit, daB eine Person 
ein Item lost, hangt davon ab, in welche Klasse die Person gehort. Innerhalb jeder 
Klasse sind die Items unabhangig (lokale Unabhangigkeit), und alle Abhangigkeiten, 
die man zwischen den Items findet, gehen darauf zuriick, daB die Personenstichpro- 
be aus unterschiedlichen Klassen zusammengesetzt ist. Ziel der Analyse ist es her- 
auszufinden, wieviele latente Klassen es gibt, und die Losungswahrscheinlichkeiten 
fur die einzelnen Items anzugeben. Fur den einzelnen Probanden kann dann anhand 
seines Antwortmusters berechnet werden, mit welcher Wahrscheinlichkeit er den ein- 
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zelnen Klassen zuzurechnen ist. Dieser Modellansatz soli im folgenden anhand einer 
Arbeit von Formann, Ehlers & Scheiblechner (1980) illustriert werden, die hier al- 
lerdings nur in Ausziigen widergegeben werden kann. 

Formann et al. (1980) wendeten die Latent-Class-Analyse auf die Daten der Eich- 
stichprobe zur Marburger Verhaltensliste (MVL von Ehlers, Ehlers & Makus, 1978) 
an. Die MVL enthalt fiinf Skalen zur Diagnose verhaltensauffalliger Kinder. Neben 
verschiedenen Latent-Class-Analysen zu den einzelnen Skalen (iiber die hier nicht 
berichtet wird) wurden auch mehrere Latent-Class-Analysen mit Items aus verschie- 
denen Unterskalen durchgefuhrt. Das Ergebnis einer dieser Analysen wird im folgen- 
den etwas vereinfacht dargestellt: 

Aus den fiinf Unterskalen der MVL wurden drei Unterskalen, namlich “Instabiles 
Leistungsverhalten (IL)“, “Unangemessenes Sozialverhalten (US)” und “Kon- 
taktangst (KA)” herausgegriffen, und aus jeder dieser Skalen zwei besonders gute 
Items ausgewahlt, insgesamt also 6 Items. Ftir jedes Item wurden zwei Antwortkate- 
gorien gebildet (Symptom wurde beobachtet: ja/nein). Bei 6 Items gibt es dann 2 6 = 
64 mogliche Antwortmuster. Deren Haufigkeiten in der Eichstichprobe von n = 1 172 
Schiilem wurden ausgezahlt und bildeten die Datenbasis fur die Latent-Class-Analy- 
se. 

Als Ergebnis der Latent-Class-Analyse fand man, daB sich die 64 Haufigkeiten 
erklaren lassen, wenn man annimmt, daB es vier latente Klassen gibt, in denen die 
einzelnen Symptome die in Tabelle 7.1 angegebenen Auftretenswahrscheinlichkeiten 
haben. 



Tabelle 7.1: Ergebnis einer Latent-Class-Analyse von sechs Items aus der Marburger Verhal- 
tensliste (nach Formami et al., 1980). Auftretenswahrscheinlichkeiten der Symptome in den 
vier latenten Klassen und relative Anteile der Klassen in der Eichstichprobe der Marburger 
Verhaltensliste. 





Klasse 1 


Klasse 2 


Klasse 3 


Klasse 4 


Item 


IL 1 


.87 


.57 


.04 


.05 


IL 2 


.72 


.52 


.11 


.04 


US 1 


.30 


.89 


.39 


.05 


US 2 


.20 


.93 


.21 


.01 


KA 1 


.45 


.66 


.25 


.09 


KA 2 


.25 


.48 


.22 


.06 


Anteil der 


Kinder pro 
Klasse 


13.4% 


8,9% 


42% 


35.7% 



Innerhalb jeder Klasse ist das Auftreten der Symptome unabhangig, so daB sich die 
Wahrscheinlichkeit fur ein bestimmtes Symptommuster aus dem Produkt der Einzel- 
wahrscheinlichkeiten fur die einzelnen Symptome ergibt. So ist z.B. die Auftretens- 
Wahrscheinlichkeit fur das Symptommuster “1 1 0 0 0 0” (nur die beiden Symptome 
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zum instabilen Leistungsverhalten wurden beobachtet) in den einzelnen Klassen wie 
folgt zu berechnen: 

Klasse 1: .87 x .72 x (1 - .30) x (1 - .20) x (1 - .45) x (1 - .25) = .14469 

Klasse 2: .57 x .52 x (1 - .89) x (1 - .93) x (1 - .66) x (1 - .48) = .00040 

Klasse 3: .04 x .11 x (1 - .39) x (1 - .21) x (1 - .25) x (1 - .22) = .00124 

Klasse 4: .05 x .04 x (1 - .05) x (1 - .01) x (1 - .09) x (1 - .06) = .00161 

Man sieht, daB dieses Antwortmuster in Klasse 1 wesentlich haufiger ist als in den 
anderen Klassen. Das Vorliegen eines solchen Antwortmusters ist also ein diagnosti- 
sches Indiz, daB die entsprechende Person aus Klasse 1 stammt. 

Beriicksichtigt man auch die relative GroBe der einzelnen Klassen, so kann man 
berechnen, mit welcher Haufigkeit das Antwortmuster “1 1 0 0 0 0” bei Modellgel- 
tung in den Daten vorkommen miiBte, und diesen Wert mit der empirisch gefundenen 
Haufigkeit vergleichen. In unserem Beispiel miiBte der relative Anted sich wie folgt 
ergeben: 

p( 110000) = .14469 x .134 + .00040 x .089 + .00124 x .42 + .00161 x .357 = .0205 

In einer Stichprobe von n = 1172 Kindern ist demnach bei Modellgeltung zu er- 
warten, daB dieses Symptommuster bei 1 172 x .0205 = 24 Kindern beobachtet wird. 

Insgesamt liegen fur die 64 Antwortpattems 64 empirische Haufigkeiten vor, de- 
nen 64 theoretische gegeniiberstehen. Da die Zahl der aus den Daten geschatzten Pa- 
rameter deutlich kleiner ist als die Zahl der zu erklarenden Haufigkeiten, kann man 
fragen, ob die empirischen Haufigkeiten von den aus den geschatzten Parametem be- 
rechneten, theoretisch erwarteten Haufigkeiten signifikant abweichen. Wenn das der 
Fall ware, ware das Modell zu verwerfen. Bei der vorliegenden Studie waren die Ab- 
weichungen nicht signifikant, die Vier-Klassen-Losung konnte also akzeptiert wer- 
den. 

Versucht man die vier Klassen inhaltlich zu interpretieren, so hat man die Symp- 
tomwahrscheinlichkeiten in den einzelnen Klassen zu vergleichen: Klasse 4 zeichnet 
sich in alien drei Bereichen durch weitgehende Symptomfreiheit aus. Auch Klasse 2 
zeigt noch relativ geringe Symptombelastung und konnte als eine Klasse von Grenz- 
fallen mit leichterer Symptomatik gelten. Die beiden kleineren Klassen 1 und 2 sind 
beides Klassen mit hoher Symptombelastung, wobei sie sich untereinander durch die 
Art der Symptome unterscheiden: In Klasse 1 zeigt sich eine besonders hohe Auftre- 
tenswahrscheinlichkeit fur instabiles Leistungsverhalten, in Klasse 2 eine sehr hohe 
Auftretenswahrscheinlichkeit fur unangemessenes Sozialverhalten. Beide Gruppen 
konnen als Gruppen von Problemkindern betrachtet werden. 

Die Grundgedanken des Latent-Class-Modells wurden von Lazarsfeld bereits 1950 
und nochmals ausfiihrlicher von Lazarsfeld & Henry (1968) dargestellt. Das Modell 
wurde inzwischen in verschiedener Hinsicht erweitert: Die Items konnen mehr als 
zwei Antwortkategorien haben, fur die Parameter konnen verschiedene Restriktionen 
gesetzt werden (etwa derart, daB bestimmte Klassen gleich groB sein sollen, daB be- 
stimmte Symptomwahrscheinlichkeiten in einer Klasse groBer sein sollen als in ei- 
ner anderen, usw.). Einen Uberblick iiber verschiedene Arten von Latent-Class-Mo- 
dellen mit unterschiedlichen Arten von Restriktionen findet man bei Formann (1984) 
und bei Langeheine & Rost (1988). Rost (1988) geht ausfiihrlich auf die formalen 
Beziehungen zwischen verschiedenen Latent-Trait-Modellen und unterschiedlich re- 
stringierten Latent-Class-Modellen ein. 
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Zusammenfassung 

Latent-Trait-Modelle gehen von der Annahme eines latenten Kontinuums (Eigen- 
schaft, Fahigkeit) aus, auf der jede Person einen bestimmten Wert (Personparameter) 
hat. Die Itemcharakteristik gibt an, wie die Losungswahrscheinlichkeit (allgemeiner: 
die Wahrscheinlichkeit fur eine bestimmte Antwortkategorie) fur ein Item von der 
Position des Probanden auf dem latenten Kontinuum abhangt. Die Antworten auf die 
einzelnen Items werden als lokal stochastisch unabhangig vorausgesetzt. 

Das Rasch-Modell setzt logistische Itemcharakteristiken voraus. Die Items unter- 
scheiden sich nur in einem Parameter, dem Schwierigkeitsparameter. Besondere Vor- 
zirge sind die Existenz erschopfender Statistiken (die Trefferzahl ist eine erschopfen- 
de Statistik fur den Personparameter) und die speziftsche Objektivitat. Letztere bildet 
auch die Grundlage fur die statistischen Tests zur Uberprirfung der Modellgeltung. 

Das Rasch-Modell hat verschiedene Weiterentwicklungen erfahren: (a) Im linear 
logistischen Modell wird der Schwierigkeitsparameter in additive Komponenten zer- 
legt. Damit konnen Hypothesen daruber, wie die Itemschwierigkeiten zustande kom- 
men, tiberpruft werden. (b) Das mehrkategoriale Rasch-Modell laBt pro Item mehr als 
zwei Antwortkategorien zu, die geordnet oder bloB qualitativ verschieden sein kon- 
nen. (c) Das Bimbaum-Modell laBt auBer dem Schwierigkeitsparameter auch einen 
Trennscharfeparameter zu; in einer weiteren Variante einen zusatzlichen Parameter 
fur die Wahrscheinlichkeit, bei bloBem Raten das Item zu losen. 

Dem Latent-Trait-Ansatz verwandt ist das LLRA-Modell, das zwar lokale Unab- 
hangigkeit, aber keinen alien Items gemeinsamen latenten Trait annimmt. In formal 
enger Beziehung zum Latent-Trait-Ansatz steht auch das Latent-Class-Modell, das 
statt einer quantitativen latenten Dimension eine Einteilung der Probanden in quali- 
tative latente Klassen zum Ausgangspunkt nimmt. 
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Neuere Anwendungen, bei denen unterschiedliche Modellvarianten und Schutzverfah- 
ren an denselben Daten vergleichend erprobt wurden, findet man u.a. bei: 

Glas, C.A. W. (1989). Contributions to estimatingand testing Rasch-models. Disser- 
tation der Universitat Twente. Den Haag: CIP-Gegevens Koninklijke Bibliothek. 
ISBN 90-9003078-6. 

Haertel, E.H. (1990). Continuous and discrete latent structure models for item respon- 
se data. Psychometrika, 55, 477 - 494. 




8. Adaptives Testen 



1 . Was versteht man unter adaptivem Testen? 

2. Welchen Beitrag leisten Latent-Trait-Modelle um zu entscheiden, welches Item 
dem Probanden als nachstes vorgelegt wird? 

3. Wie konnen mit Hilfe von Latent-Trait-Modellen Punktwerte trotz unterschied- 
licher Itemauswahl verglichen werden? 



Vorstrukturierende Lesehilfe 

Zunachst wird auf Vorlaufer antwortabhangigen adaptiven Testens hingewiesen. Da- 
nach wird gezeigt, daB Latent-Trait-Modelle sowohl auf die Frage nach der fur einen 
Probanden optimalen Bemauswahl als auch auf die Frage der Vergleichbarkeit von 
Testwerten trotz von Proband zu Proband unterschiedlicher Itemauswahl eine prazi- 
se Antwort zu geben vermogen. SchlieBlich wird auf einige Studien hingewiesen, die 
liber praktische Erfahrungen berichten. 

Adaptives oder antwortabhangiges Testen zeichnet sich gegeniiber konventioneller 
Testvorgabe dadurch aus, daB die Auswahl der Testaufgaben, die der Proband zu be- 
arbeiten hat, nicht schon zu Beginn festliegt, sondem erst wahrend der Testdurchfiih- 
rung in Abhangigkeit von den bisher gegebenen Antworten erfolgt. Das entspricht 
dem Grundkonzept nach dem, was in nicht formalisierter Weise wohl jeder Priifer tut, 
der eine mundliche Priifung abhalt: Er wertet laufend die Antworten aus, macht sich 
ein Bild vom Kenntnisstand des Probanden und modifiziert den Schwierigkeitsgrad 
seiner Fragen: Wenn der Proband nicht richtig geantwortet hat, wahlt er leichtere, 
wenn er richtig antwortet schwerere Fragen. 

Adaptive Strategien wurden auch schon seit der Anfangszeit der Intelligenzmes- 
sung, z.B. in den Binet-Tests (siehe z.B. Binetarium nach Norden, 1930) verwendet. 
Die Aufgaben sind dort der Schwierigkeit nach geordnet und bestimmten Lebensal- 
tem zugeordnet. Das Kind bekommt zunachst Aufgaben gestellt, die der Schwierig- 
keit nach 1 Jahr unter seinem Lebensalter anzusiedeln sind, und je nach Erfolg oder 
MiBerfolg bei diesen Aufgaben wird mit Aufgaben hoherer oder niedrigerer Alters- 
stufen fortgefahren. Auch die Beendigung erfolgt antwortabhangig: Wenn die Aufga- 
ben einer Altersstufe alle nicht mehr bewaltigt wurden, werden keine weiteren Auf- 
gaben mehr gestellt. 

Bei den in der Folgezeit entwickelten Tests treten adaptive Verfahrensweisen al- 
lerdings nur noch vereinzelt auf: Bei Tests mit Einzeldurchfiihrung werden die Ab- 
bruchkriterien gewohnlich in Abhangigkeit vom Erfolg bzw. MiBerfolg des Proban- 
den festgelegt. So ist z.B. beim HAWIE (Hamburg-Wechsler-Intelligenztest nach 
Hardesty & Lauber, 1956) zu den einzelnen Subtests jeweils eine Abbruchregel an- 
gegeben: Wenn eine bestimmte Anzahl von Items hintereinander nicht gelost wurde. 
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so werden die weiteren, schwierigeren Items dieses Subtests nicht mehr vorgelegt. Die 
Anwendung des Progressiven Matrizen Tests nach Raven, eines nicht verbalen Intel- 
ligenztests, sieht vor, bei vermutlich leistungsschwachen Probanden zunachst mit ei- 
ner leichteren Form, den “Coloured Progressive Matrices” zu beginnen und je nach 
Erfolg oder MiBerfolg mit der schwierigeren Standard- Version fortzufahren (Raven, 
1963). Solche adaptiv verzweigende Elemente in der Testdurchfuhrung sind aber eher 
die Ausnahme. Bei der ganz iiberwiegenden Mehrzahl der Tests ist die Durchfuhrung 
fur alle Probanden gleich: Die Aufgaben. werden der Schwierigkeit nach steigend 
angeordnet und alien Probanden in der gleichen Weise vorgelegt. Der Hauptgrund da- 
fur ist wohl darin zu sehen, daB im Interesse der Testokonomie die meisten Tests Pa- 
pier-Bleistift-Tests sind, die in Gruppen durchgefuhrt werden. Eine Gruppendurch- 
fiihrung mit einheitlicher Instruktion und einheitlicher Bearbeitungszeit fur alle 
Probanden laBt eine individualisierte adaptive Aufgabendarbietung praktisch nicht zu. 

Ein weiteres Problem ist eher theoretischer Art: Wenn bei adaptiver Testvorgabe 
jeder Proband andere Aufgaben bearbeitet hat, so sind die Leistungen untereinander 
schwer zu vergleichen. Die Leistung eines Probanden, der am Anfang Treffer erziel- 
te und daraufhin schwierigere Fragen bekam, die er nicht mehr beantworten konnte, 
ist offensichtlich hoher zu bewerten als die eines Probanden, der am Anfang einige 
Fehler machte und seine Treffer bei den daraufhin gebotenen leichten Items erzielte. 
Aber um wieviel hoher? Wenn bei adaptiver Itemauswahl eine Vielzahl unterschied- 
licher Item-Abfolgen moglich ist und aufgrund adaptiver Abbruchregeln unterschied- 
liche Itemzahlen geboten wurden, so ist die Frage nach einem gerechten Punktesy- 
stem schwer zu beantworten und auf der Basis von bloBen Ad-hoc -Regeln wohl kaum 
befriedigend zu losen. 

Eine theoretische Grundlage fur adaptive Teststrategien, die nicht nur eine ratio- 
nal begriindete Itemauswahl ermoglicht, sondern auch eine theoretische Basis fur den 
Vergleich von Testleistungen trotz unterschiedlicher Itemauswahl liefert, wurde erst 
mit Hilfe der Latent-Trait-Modelle geschaffen. Zunachst muB gezeigt sein, daB alle 
Items eines Itempools einem bestimmten Latent -Trait-Modell, z.B. dem einfachen 
Rasch-Modell, geniigen, und die Itemparameter miissen bekannt sein. Wenn das der 
Fall ist, kann man jede beliebige Teilmenge von Items beniitzen, um fur einen Proban- 
den den Personparameter zu schatzen. Damit ist das Problem der Vergleichbarkeit der 
Testwerte trotz unterschiedlicher Itemauswahl gelost: Verglichen werden nicht die 
Trefferzahlen, sondern die -unter Beriicksichtigung der Itemparameter (im Falle des 
Rasch-Modells der Schwierigkeitsparameter) - geschatzten Personparameter. 

Auch die Frage, welches Item als nachstes vorgelegt werden soli, laBt sich prazis 
beantworten: Wenn es das Ziel ist, mit moglichst wenig Items eine moglichst genaue 
Schatzung des Personparameters zu erhalten, so ist es die optimale Strategic, wah- 
rend der Testdurchfuhrung laufend den Personparameter zu schatzen und als nachstes 
immer dasjenige Item auszuwahlen, das an der Stelle des geschatzten Personparame- 
ters bestmoglich diskriminiert. Im Falle des einfachen Rasch-Modells ist das dasje- 
nige Item, das bei diesem Personparameter die Losungswahrscheinlichkeit 0.5 hat. Je 
nach Erfolg oder MiBerfolg bei diesem Item wird die Schatzung des Personparame- 
ters nach oben oder unten korrigiert und als nachstes ein um den entsprechenden 
Betrag schwereres oder leichteres Item geboten. 

Im theoretischen Idealfall stehen Items beliebiger Schwierigkeitsabstufung zur 
Verfiigung. Stellt man sich weiter vor, man hatte unter Verwendung des linear-logi- 
stischen Modells die Itemschwierigkeiten vollstandig durch die zur Losung erforder- 
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lichen Operationen erklart (vgl. Kapitel 7.3), so konnte das nachste Item mit dem 
gewiinschten Schwierigkeitsgrad auch vom Computer erzeugt werden. Realistischer 
ist es, von einer begrenzten Itemmenge auszugehen, aus der dann immer das Item aus- 
gewahlt werden kann, das unter den vorhandenen an der entsprechenden Stelle die 
relativ beste Trennscharfe hat und somit den groBten Informationsgewinn iiber den 
Personparameter liefert. Zur laufenden Schatzung des Personparameters wurden 
verschiedene Verfahren vorgeschlagen, die sich danach unterscheiden, ob man Annah- 
men liber die Verteilung der Personparameter in der Population als Vorwissen mit ein- 
gehen lassen will (Bayes-Schatzungen) oder nicht (Maximum Likelihood-Schatzun- 
gen). (Eine vergleichende Simulationsstudie findet man bei Wild, 1988a). 

Uber praktische Erfahrungen mit computerunterstiitztem, adaptivem Testen liegen 
erst einzelne Studien vor. McBridge & Martin (1983) wiesen darauf hin, daB trotz der 
unbestrittenen theoretischen Uberlegenheit adaptiver Testverfahren gegeniiber der 
konventionellen Testvorgabe, die bis dahin in der Literatur berichteten praktischen 
Anwendungen diese Uberlegenheit nicht immer bestatigt hatten. Sie schlossen eine 
eigene Untersuchung an, die beiden Verfahrensweisen moglichst gleich gute Chan- 
cen geben sollte. Die Probanden wurden nach dem Zufall auf die beiden Bedingun- 
gen adaptive vs. konventionelle Testvorgabe aufgeteilt. Die Testitems (“verbal abili- 
ty”) stammten aus demselben Itempool von 150 Items. Jede Person hatte 2 Testformen 
(entweder 2 mal adaptive oder 2 mal konventionelle Vorgabe) zu je 30 Items zu bear- 
beiten. Die Darbietung erfolgte in jedem Fall per Computer. Bei adaptiver Darbietung 
wurden die Items gemaB dem aktuellen Stand der Schatzung des Personparameters 
ausgewahlt, bei konventioneller Darbietung wurden die Items so ausgewahlt, daB sie 
den gesamten Schwierigkeitsbereich gleichmaBig abdeckten. AuBerdem wurde jeder 
Person als “KriteriumsmaB” ein umfangreicher Wortschatztest (“word knowledge”) 
vorgelegt. 

Im Ergebnis zeigte sich eine bessere Paralleltest-Reliabilitat fur die adaptive Vor- 
gabe. Der Unterschied war bei einem sehr kurzen Test am deutlichsten (bei 5 Items 
.78 fur adaptive, .58 fur konventionelle Darbietung) und glich sich mit zunehmender 
Testlange aus (bei 30 Items .92 fur adaptive, .89 flir konventionelle Darbietung). Bei 
der Validitat (Ubereinstimmung mit dem Kriteriumstest) zeigte sich eine nur gering- 
fiigige bessere Korrelation der adaptiven Form. In einer Wiederholung der Studie fie- 
len die Ergebnisse noch deutlicher zugunsten der adaptiven Form aus. Ahnliche Er- 
gebnisse, namlich eine Verbesserung der MeBgenauigkeit bei adaptiver gegeniiber 
konventioneller Testvorgabe, insbesondere bei kleinen Itemzahlen, aber keine oder 
keine wesentliche Verbesserung der Validitat gemessen an AuBenkriterien, traten auch 
in verschiedenen anderen Studien auf (eine Uberblicksdarstellung findet man bei 
Bloxom, 1989). 

In der Studie von McBridge & Martin (1983) wurde unter gleicher Testlange glei- 
che Itemzahl verstanden. Wild (1988b), die mit einer adaptiven Variante des Matri- 
zen-Tests arbeitete, berichtet allerdings iiber deutliche erhohte Itembearbeitungszei- 
ten bei adaptiver Vorgabe. Damit wird der Effizienzgewinn wieder fraglich. Nahrer 
(1988) schlagt vor, die Bearbeitungszeiten in die Auswahlstrategie mit einzubeziehen 
und die Items so auszuwahlen, daB die bestmogliche Genauigkeit bei minimaler Test- 
zeit (statt bisher: Itemzahl) erreicht wird. 

Ein weiteres Problem bei adaptiver Testvorgabe besteht darin, daB sich die Item- 
Parameter durch Lernen wahrend der Testdurchfiihrung verandern konnen. Inwieweit 
das der Fall ist, wird natiirlich vom Inhalt des Tests und dem Testmaterial abhangen. 
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Bei einem Wortschatztest wird Lernen wahrend der Testvorgabe vermutlich kaum eine 
Rolle spielen, im Unterschied etwa zu Aufgaben, die wiederholte Anwendung dersel- 
ben Operationen (z.B. Anwendung der Hebelgesetze) erfordem. Wenn Lernen wah- 
rend der Testvorgabe eine nicht vemachlassigenswerte Rolle spielt, so bedeutet das, 
daB der Itemparameter fur ein Item nicht feststeht, sondern von der Position abhangt, 
an der das Item geboten wird. Gittler und Wild (1988) zeigen in einer Simulations- 
studie, daB nicht berucksichtigte Lerneffekte zu einem erheblichen Bias bei der 
Schatzung der Personparameter fiihren konnen. Als publizierte Tests fur den routine- 
maBigen Einsatz in der diagnostischen Praxis stehen Testverfahren mit computer- 
unterstlitzter maBgeschneiderter (“tailored”) Testvorgabe noch nicht zur Verfiigung. 
Das Verfahren, das den Ansatz des adaptiven Testens bisher am weitesten realisiert 
hat, ohne allerdings Computereinsatz zu benotigen, ist das Adaptive Intelligenz- 
Diagnostikum (AID) von Kubinger & Wurst (1985). Es werden wahrend der Test- 
durchfuhrung Zwischenauswertungen durchgefuhrt, die iiber die weitere Aufga- 
bendarbietung entscheiden (Naheres siehe Beispiel 8.1). Damit ist ein handhabbarer 
Weg gefunden, adaptive Testvorgabe auch ohne Computer zu realisieren. Allerdings 
ist Einzeldurchfiihrung durch einen geubten Versuchsleiter erforderlich. Inwieweit 
sich die Validitatserwartungen und die von den Autoren erwartete Verbesserung der 
Motivationslage bei den Probanden bestatigen lassen, bleibt noch zu untersuchen. 
Uber die Entwicklung eines Lerntests mit computerunterstlitzter adaptiver Testvor- 
gabe berichten Guthke et al. (1991). 



Bei Spiel 8.1: Adaptives Testen ohne Computereinsatz: Adaptives Intelligenz-Diagnosti- 
kum AID von Kubinger & Wurst (1985), Untertest 1 “Alltags wissen” 

Das AID besteht aus 1 1 Untertests. Alle Untertests sind nach dem Rasch-Modell konstru- 
iert und nach verschiedenen Kriterien auf Rasch-Homogenitat gepriift. Bei 9 der 1 1 Un- 
tertests ist eine adaptiv verzweigende Durchftihrung vorgesehen, u.a. bei Untertest 1 “All- 
tagswissen”. Durchfuhmng und Auswertung dieses Untertests laufen wie folgt ab: 

Dem Probanden werden zunachst 5 Aufgaben vorgelegt. Je nach Zahl der Richtigen, die 
vom Versuchsleiter wahrend der Testdurchfuhmng festgestellt wird, ist mit einer von 3 
weiteren Aufgabengruppen (einer leichteren, einer gleich schweren oder einer schwere- 
ren) fortzufahren. Diese zweite Aufgabengruppe besteht wieder aus 5 Aufgaben. Der Ver- 
suchsleiter hat die Zahl der Richtigen in diesem zweiten Aufgabenblock festzustellen und 
je nach Abschneiden des Probanden im zweiten Block mit einer von drei weiteren Aufga- 
bengruppen fortzufahren. Diese dritte Aufgabengruppe besteht wieder aus 5 Items, so daB 
der Proband insgesamt 15 Items zu bearbeiten hat. 

Im Laufe der Testdurchfuhrung sind also zwei Zwischenauswertungen mit anschlieBen- 
der Verzweigung vorgesehen. Bei drei Alternatively pro Verzweigung ergeben sich somit 
neun Moglichkeiten ftir die Zusammenstellung des Tests. Rohwert ist die Zahl der gelo- 
sten Aufgaben. Da nun derselbe Rohwert je nach Schwierigkeit der Items, die zu bearbei- 
ten waren, Unterschiedliches bedeuten kann. gibt es ftir jede der neun Moglichkeiten eine 
eigene Umrechnungstabelle, die dem Rohwert einen geschatzten Personparameter zuordnet. 
Diese geschatzten Personparameter sind nun vergleichbar, egal auf welche Weise sie er- 
zielt wurden. Allerdings haben geschatzte Personparameter keine unmittelbar anschauli- 
che Bedeutung und sind diagnostisch schwer interpretierbar. Deshalb werden in weiteren 
Tabellen diesen geschatzten Personenparametern altersstandardisierte T-Werte zugeord- 
net. 
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Zusammenfassung 

Grundziige antwortabhangigen, adaptiven Testens findet man sowohl in alltaglichen 
Priifungssituationen als auch in friihen Testkonzepten. Eine theoretische Basis wurde 
durch die Latent-Trait-Modelle geschaffen. Wenn die Items einem bestimmten Latent- 
Trait-Modell, z.B. dem Rasch-Modell, geniigen, so kann man jeweils dasjenige Item 
auswahlen, das an der Stelle des aktuell geschatzten Personparameters die beste 
Trennscharfe hat. Will man die Leistungen verschiedener Probanden vergleichen, so 
kann man das anhand der geschatzten Personparameter tun. 

Die Anwendung erfordert in der Regel Computereinsatz. Zum Vergleich zwischen 
konventionellem und computerunterstutzem adaptivem Testen liegen einige Erfah- 
rungsberichte vor, die teilweise eine bessere Reliabilitat und Validitat der adaptiven 
Testvorgabe ausweisen, aber auch auf Probleme (Veranderungen durch Lerneffekte 
wahrend des Testens, verlangerte Bearbeitungszeit pro Item) hinweisen. 
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9. Spezielle Probleme der Veranderungsmessung 



9.1 Formale und inhaltliche Ansatze zur Messung Vonveranderungen 



1. Wie lassen sich VerMnderungen, z. B. ein Lemgewinn, im Rahmen verschie- 
dener testlheoretischer Modelle quantifizieren, und wie kann man in diesen 

" Modellertspeziellere Hypothesen, z.B. iiber die Art des Lenkas, formal aus- 
driicken und uberpriifen? i ^ ; 

2. Welche Vorschlage wurden gemacht, urn den Gesichtspunkt der Anderungs- 
sensitivitat schon bei der Testkonstruktion zu beriicksichtigen? 

Was sind Lemtests, und welche Erfahrungen liegen damit vor? 



Vorstrukturierende Lesehilfe 

Zunachst wird die Frage, ob eine Veranderung stattgefunden hat, von der Frage ab- 
gegrenzt, wodurch diese Veranderung zustande gekommen ist, ob z.B. ein bestimm- 
tes Lernprogramm Erfolg gehabt hat. Dann wird die Frage behandelt, wie Verande- 
rungen, insbesondere auch Veranderungen durch Lerneffekte, in verschiedenen 
testtheoretischen Modellen dargestellt werden konnen: in der klassischen Testtheo- 
rie, im Rasch-Modell, im linear-logistischen Modell und im Latent-Class-Modell 

(9.1.1). 

Starker von inhaltlichen Gesichtpunkten als von formalen Modellansatzen ausge- 
hend wurden Vorschlage zur Entwicklung spezieller anderungssensitiver Tests ge- 
macht. Dabei soli die Anderungssensitivitat eines Items empirisch bestimmt und als 
Itemselektionskriterium verwendet werden. Diese Vorschlage werden in (9.1.2) dis- 
kutiert. 

Ein letzter Abschnitt (9.1.3) befaBt sich mit Lerntests, als einem speziellen inhalt- 
lichen Bereich der Veranderungsmessung. Hier wird nicht nur iiber den methodischen 
Ansatz, sondern auch iiber die inhaltlichen Ergebnisse berichtet, die schlieBlich zu 
einem Wandel der Fragestellung gefiihrt haben. 

Probleme der Veranderungsmessung treten in alien Bereichen Psychologischer und 
Padagogischer Diagnostik auf: bei der individuell beratenden Diagnostik, in der an- 
gewandten Forschung, z.B. bei der Evaluation von Forderprogrammen, aber auch bei 
vielen Fragestellungen in der psychologischen Grundlagenforschung. Dabei sind zwei 
Hauptfragestellungen zu unterscheiden: Die erste Frage richtet sich darauf, ob iiber- 
haupt eine Veranderung stattgefunden hat. Daran schlieBt sich als zweites die Frage 
an, wodurch diese Anderung zustande kam: Bei einem Lemexperiment z.B. die Fra- 




170 



9. Spezielle Probleme der Veranderungsmessung 



ge, ob es sich bei der Veranderung um Lerneffekte handelt oder vielleicht nur um 
Effekte der Testgewohnung; bei der Erprobung eines Programms zur Forderung der 
kognitiven Entwicklung z.B. die Frage, ob die Verbesserung dem Forderprogramm 
zuzuschreiben ist oder anderen Einfliissen, denen die Versuchspersonen in dem Zeit- 
intervall ebenfalls ausgesetzt waren. 

Zur ersten Frage, wie die Veranderung festzustellen ist, liegen aus der Testtheorie 
sowohl Beitrage formaler Art wie auch spezifische inhaltliche Beitrage vor. Sie wer- 
den im folgenden Kapitel (9.1) dargestellt. Die zweite Frage, also die Frage nach 
Nachweis, Abgrenzung und Quantifizierung von Behandlungseffekten, stellt sich vor 
allem im Bereich von Evaluationsstudien und schlieBt Probleme der Versuchsplanung, 
insbesondere der experimentellen und quasi-experimentellen Kontrolle, mit ein. Diese 
Fragen werden im Kapitel iiber Evaluationsforschung (9.2) angesprochen. 



9.1.1 Die Darstellung von Veranderungen im Rahmen verschiedener testtheo- 
retischer Ansatze 

9.1.1.1 In der klassischen Testtheorie 

Im Rahmen der klassischen Testtheorie kann man Fernen als Zuwachs im wahren Wert 
ausdrucken. Fiegen von einem Probanden vor und nach einem Training zwei Testwerte 
X! und X 2 vor, so kann man zunachst einmal fragen, ob der Zuwachs X 2 - X] groB 
genug ist, daB mit hinreichender Sicherheit ausgeschlossen werden kann, daB er nur 
durch zufallige MeBfehler zustande gekommen ist. Diese Frage laBt sich mit Hilfe der 
Kritischen Differenz (siehe Kapitel 3.2) beantworten. Wurde die Nullhypothese 
(T 2 - Ti = 0) verworfen, so ist immer noch die Frage offen, ob die Veranderung des 
wahren Werts tatsachlich auf Fernen zuruckzufuhren ist oder z.B. auf triviale Test- 
wiederholungseffekte. Hier kann allenfalls die Handanweisung weiterhelfen, wenn 
darin Angaben zum AusmaB von Wiederholungseffekten enthalten sind. Ansonsten 
wird man die Interpretation nur auf inhaltliche Plausibilitat stiitzen konnen, wonach 
Fernen die naheliegendste Erklarung fur die Veranderung nach dem Training ist, ohne 
aber den Ferneffekt von anderen Effekten genau abgrenzen zu konnen. 

Ahnlich stellt sich die Situation dar, wenn es sich nicht um die Veranderung einer 
einzelnen Person, sondem einer Gruppe von Personen, z.B. einer Schulklasse handelt. 
Fiegen zwei Messungen (vor und nach dem Training) vor, so kann zwar festgestellt 
werden, ob eine Veranderung stattgefunden hat, aber nicht schliissig belegt werden, 
wodurch diese Anderung bedingt ist. Eine Quantifizierung des Trainingsgewinns und 
darauf aufbauende Fragestellungen (Womit hangt der Ferngewinn zusammen? Wer 
hat vom Training mehr profitiert?) ist nur im Vergleich mit geeigneten Kontrollgrup- 
pen moglich (siehe 9.2). 

Wenn in der klassischen Testtheorie Fernen als Zuwachs im wahren Wert darge- 
stellt wird, so laBt sich das am leichtesten mit der Vorstellung von einem quantitativ 
definierten Fahigkeitskontinuum verbinden, auf dem der Proband ein Stuck nach oben 
gewandert ist. Das bedeutet jedoch nicht, daB qualitative Veranderungen auf der Ba- 
sis der klassischen Testtheorie nicht erfaBt werden konnten: Eine Anderung der Fo- 
sungsstrategie, der Erwerb neuer Algorithmen usw. fiihrt dazu, daB sich die Fosungs- 
wahrscheinlichkeiten und Fosungszeiten fur bestimmte Aufgaben andern, daB 
bestimmte Fehlerarten haufiger oder seltener werden, usw. Welche qualitative!! Ver- 
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anderungen tiber welche quantitativen Indikatoren erfaBt werden konnen, bedarf al- 
lerdings einer inhaltlichen Theorie. 

9.1.1.2 Im einfachen Rasch-Modell 

Im Rasch-Modell laBt sich der Lemzuwachs eines Probanden als Zunahme des Per- 
sonparameters auffassen. Diese Zunahme kann geschatzt werden, wenn der Proband 
vor und nach der Lernphase jeweils eine Testform bearbeitet hat. Diese Testformen 
brauchen nicht parallel im Sinn der klassischen Testtheorie sein, miissen aber einer 
gemeinsamen Rasch-Skala entstammen und gemeinsam normiert sein. Um das zu 
gewahrleisten, sollte eine Voruntersuchung stattgefunden haben, bei der die Items der 
beiden Testformen zugleich (also ohne dazwischenliegendes Lernen) einer Personen- 
stichprobe vorgelegt und auf Rasch-Homogenitat gepriift wurden. Um die Personen- 
parameter numerisch vergleichbar zu machen, miissen sie fur beide Testformen gleich 
normiert sein, z.B. beide auf den Mittelwert Null in der gemeinsamen Analysenstich- 
probe. Wenn das der Fall ist, so kann aus dem Rohwert vor und nach der Lernphase 
jeweils der Personparameter geschatzt werden und die Differenz als Schatzung des 
Zuwachses verwendet werden. 

An diese Schatzung des Zuwachses schlieBen sich dann die gleichen Fragen, wie 
sie auch im Rahmen der klassischen Testtheorie zu stellen waren: Ist der Unterschied 
groB genug, daB mit hinreichender Sicherheit ausgeschlossen werden kann, daB er nur 
durch die Ungenauigkeiten bei den Parameterschatzungen zustande kam? Ist die Ver- 
anderung durch Lernen zustande gekommen? - Da jedoch in den meisten Untersu- 
chungen, die mit dem Rasch-Modell arbeiten, die Hauptfragestellung auf die Testkon- 
struktion, insbesonders auf die Modellgeltung und auf die Priifung von Hypothesen 
beziiglich der Itemparameter gerichtet war und nicht auf praktische Fragestellungen 
der individuellen Diagnostik oder auch der Programme valuation, wurden solche The- 
men im Rahmen der Latent-Trait-Modelle bislang wenig bearbeitet. 

9.1.1.3 Im I i nea r- 1 ogi sti schen Model I 

Im Rahmen des linear-logistischen Modells kann Lernen auf unterschiedliche Art 
dargestellt werden: Rost & Spada (1983) entwickelten eine Systematik von acht un- 
terschiedlich komplexen Lernmodellen, die aber nicht alle gut interpretierbar und aus 
realistischen Datenmengen schatzbar sind. Im folgenden sollen daher nur die wich- 
tigsten Varianten betrachtet werden: 

Das restriktivste Modell (“globales Lernen”) sieht vor, daB der Lemzuwachs filr 
alle Personen gleich ist. Eine Verschiebung aller Personparameter um einen konstan- 
ten Betrag nach oben kann formal auch so ausgedriickt werden, daB alle Items bei der 
zweiten Testdurchfiihrung um denselben Betrag leichter geworden sind. Werden die- 
selben Items vor und nach einer Lernphase bearbeitet und dann beide Testdurchfiih- 
rungen einer gemeinsamen Rasch-Analyse unterzogen, so sollten sie sich erstens als 
Rasch-homogen erweisen, und es sollte sich zweitens filr jedes Item der Schwierig- 
keitsparameter nach der Lernphase aus dem Schwierigkeitsparameter vor der Lern- 
phase plus einer filr alle Items gleichen additiven Konstante ergeben. Letzteres kann 
im linear-logistischen Modell als Restriktion bei der Schatzung der Itemparameter 
eingefiihrt werden, und bei der Priifung der Modellgeltung darf die Hinzunahme die- 
ser Restriktion zu keiner signifikanten Verschlechterung der Modellanpassung fiih- 
ren. 
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Das dargestellte Modell globalen Lernens ist allerdings so restriktiv, daB es schwer 
sein diirfte, Daten zu finden, die diesem Modell geniigen. LaBt man die Moglichkeit 
offen, daB der Lemzuwachs fur die einzelnen Items unterschiedlich ist, so erhalt man 
ein Modell itemspezifischen Lernens. Wie beim Modell globalen Lernens miissen die 
Items aus erster und zweiter Testdurchfiihrung eine gemeinsame Rasch-Skala bilden. 
Da aber nun der Schwierigkeitsverlust, der durch Lemen eingetreten ist, bei jedem 
Item anders sein kann, sind auf die Itemparameter keine Restriktionen zu setzen. Da 
auch in diesem Modell der Lerngewinn als ein Schwierigkeitsverlust der Items aus- 
gedruckt wird, der fur alle Personen in gleicher Weise gilt, setzt auch dieses Modell 
voraus, daB der Lemzuwachs (genauer gesagt: die Lemzuwachse fur die einzelnen 
Items) bei alien Personen gleich ist. 

Eine inhaltlich interessante Variante des itemspezifischen Lernens stellt das Mo- 
dell des operationsspezifischen Lernens dar. Hier wird zunachst fur jedes Item fest- 
gestellt, welche Operationen (Anwendungen von Regeln, z.B. Hebelgesetze) wie oft 
angewendet werden miissen, um die Aufgabe zu losen. Die Itemparameter werden 
zunachst auf die Schwierigkeit der beteiligten Operationen als Basisparameter (siehe 
Kapitel 7.3) zuriickgefiihrt. Dabei wird angenommen, daB bei der zweiten Testdurch- 
fiihrung die einzelnen Operationen unterschiedlich stark vom Lernfortschritt profi- 
tiert haben, also unterschiedlich stark in ihrer Schwierigkeit reduziert worden sind. 
Bei der Modellanpassung wird der Lerngewinn (Schwierigkeitsverlust) fur die ein- 
zelnen Operationen geschatzt und iiberpriift, ob sich der Schwierigkeitsverlust der 
einzelnen Items aus dem Schwierigkeitsverlust der beteiligten Operationen ergibt. 
Anwendungen aus dem mathematisch-naturwissenschaftlichen Bereich findet man 
u.a. bei Spada (1976) und Rost (1977). Scheiblechner (1972) nimmt Lernen schon im 
Zuge der Itembearbeitung innerhalb einer einzigen Testdurchfiihrung an. 

Wie bereits erwahnt, laBt ein Modell, bei dem Lernen dadurch dargestellt wird, daB 
bei gleichbleibenden Personparametem die Items bei der zweiten Testdurchfiihrung 
leichter werden, und zwar um einen fiir alle Personen gleichen Betrag, keine interin- 
dividuellen Unterschiede im Lernfortschritt zu. Um ein Modell zu erhalten, das auch 
individuelle Unterschiede im Lernfortschritt zulaBt, muB jede Person durch zwei Per- 
sonparameter, vor bzw. nach dem Lernen, gekennzeichnet werden. Es miissen dann 
die Vortestdaten fiir sich genommen und die Nachtestdaten fiir sich genommen jeweils 
dem Rasch-Modell geniigen, sie lassen sich aber nicht in einem einzigen Rasch-Mo- 
dell (mit nur einem Personparameter fiir alle Items) zusammenfassen. Durch einen 
technischen Trick, bei dem die Person vor und nach dem Lernen als zwei verschiede- 
ne Personen behandelt wird, lassen sich auch in diesem Modellansatz Hypothesen 
iiber item- bzw. operationsspezifisches Lernen testen. 

Zur Illustration dieses Ansatzes wird in Beispiel 9.1 die Untersuchung von Rost 
(1977) dargestellt. Dieses Beispiel zeigt, wie im Rahmen des linear-logistischen 
Modellansatzes unterschiedliche Hypothesen iiber den LemprozeB ausgedriickt und 
getestet werden konnen. Dabei zeigt sich aber auch, daB inhaltliche Fragen und Fra- 
gen der Versuchsplanung (Sind Vortest und Nachtest itemweise parallel? Sind dem- 
nach unterschiedliche Schwierigkeitsanderungen auf unterschiedlich starke Unter- 
richtseffekte zuriickzufiihren?) genauso auftreten und genauso emst zu nehmen sind 
wie bei Verwendung klassischer Methoden. 
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B ei Spiel 9.1 : Uberpriifung von Hypothesen liber den LernprozeB im Rahmen des linear- 
logistischen Modells 

Rost (1977) wandte das linear-logistische Modell an. um den Effekt eines Lernprogramms 
zum Thema “Erkennen von funktionalen Abhangigkeiten zwischen zwei MeBwertreihen” 
zu analysieren. Die Versuchspersonen hatten zunachst in einem Vortest 20 Aufgaben un- 
terschiedlicher Art zu bearbeiten. wobei jeweils zwei MeBwertreihen geboten wurden und 
die mathematische Funktion (z.B. Y = 2X + 3, Y = 60/X, usw.) erkannt werden muBte, 
nach der Y aus X hervorging. Die Testaufgaben unterschieden sich in der Art der Funkti- 
on, in der Art der Darbietung (mit/ohne textliche Einkleidung) und darin, ob die MeBwer- 
treihen der Funktion genau entsprachen oder kleine “MeBfehler” enthielten. Es folgte ein 
funfstiindiges Trainingsprogramm und danach eine zweite Testdurchfuhrung. Der zweite 
Test enthielt ebenfalls 20 Items, die zu denen des Vortests “sachstrukturell parallel” wa- 
ren (zu jedem Item des Vortests gab es ein Item des Nachtests, das ihm in den genannten 
Konstruktionsmerkmalen entsprach). DaB Vortest und Nachtest dasselbe messen, wurde 
damit zwar nicht empirisch belegt, aber doch inhaltlich gut begrtindet. 

1m ersten Schritt der Auswertung wurde fur Vortest und Nachtest getrennt uberpruft. ob 
die Items jeweils eine Rasch-Skala bilden. In beiden Fallen wurde - trotz kleinerer Ab- 
weichungen - das Rasch-Modell als verwendbar angesehen. Indem Vortest und Nachtest 
getrennt analysiert wurden, wurde erstens nicht vorausgesetzt, daB die Personparameter 
gleich bleiben bzw. nur um eine fur alle Personen gleiche Konstante zunehmen. Damit 
sind individuelle Unterschiede im Lemzuwachs zugelassen. Es ist zweitens nicht voraus- 
gesetzt, daB die Itemparameter bei der zweiten Testdurchfuhrung denen bei der ersten Test- 
durchfuhrung (bis auf eine fur alle Items gleiche Konstante) entsprechen. Damit ist itemspe- 
zifisches Lernen zugelassen. 

Im nachsten Schritt wurden dann restriktivere Modelle gepriift: Zunachst wurden die Schwie- 
rigkeitsparameter der Items (genauer gesagt: der beiden stmkturgleichen Paarlinge) in Vortest 
und Nachtest verglichen. Damit sollte festgestellt werden, ob nicht auch ein Modell, das 
einen fur alle Items gleichen Lemfortschritt annimmt (also kein itemspezifisches Lernen 
zulaBt), den Daten gerecht wird. Das war nicht der Fall: Es zeigte sich, daB die Schwie- 
rigkeitsparameter der Items in ihrer Relation zu einander im Nachtest anders ausfielen als 
im Vortest. Daraus wurde geschlossen, daB tatsachlich itemspezifisches Lernen stattge- 
funden hat. - Eine solche Interpretation setzt freilich voraus, daB die beiden Items, die als 
stmkturgleiche Paarlinge vor bzw. nach dem Training vorgelegt wurden, ohne dazwischen- 
liegendes Lernprogramm genau gleich schwierig gewesen waren. Es bleibt kritisch an- 
zumerken, daB das eine sehr hohe Anforderung ist, die empirisch nicht uberpruft wurde, 
sondern aufgrund der “strukturellen Parallelitat” als erflillt angesehen wurde. Aufgrand 
der Erfahmng, daB auch bei relativ eng umschriebenen Konstruktionsregeln unterschied- 
lich schwierige Items entstehen konnen (siehe Kapitel 7.3). bleiben in diesem Punkt Zweifel 
offen. 

Als nachstes wurde die Frage gepifift, ob die Annahme individueller Unterschiede im Lem- 
zuwachs (pro Person zwei Personparameter, je einer fur Vortest und Nachtest) notwendig 
ist, oder ob nicht auch ein Modell mit einem fur alle Personen gleichen Lemzuwachs (nur 
ein Personparameter fur Vor- und Nachtest, Lemzuwachs als flir alle Personen giiltiges 
Leichterwerden der Items dargestellt) den Daten gerecht wird. Das zweite Modell, das durch 
eine gemeinsame Rasch- Analyse von Vor- und Nachtest ausgedruckt wird, zeigte eine si- 
gnifikant schlechtere Anpassung als das erste (getrennte Rasch-Analysen von Vor- und Nach- 
test), so daB die Hypothese eines fur alle Personen gleichen Lernzuwachses verworfen wurde. 
Angenommen wurde somit ein Modell, bei dem sich (1) Lernen auf die einzelnen Items 
unterschiedlich stark auswirkt und (2) individuelle Unterschiede im Lemfortschritt vor- 
handen sind. 
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9.1.1.4 I m Latent-Class-M odell 

Im Rahmen des Latent-Class-Modells kann Lernen als Ubergang von einer latenten 
Klasse in eine andere dargestellt werden. Dieser Modellansatz bietet sich an, wenn 
Lernen als stufenweiser Ubergang zwischen qualitativ verschiedenen Stadien gese- 
hen wird. Rindskopf (1983) und Bergan & Stone (1985) entwickelten einen forma- 
len Rahmen, in dem sich hierarchisches Lernen (eine Regel kann nur erlernt werden, 
wenn eine bestimmte andere bereits bekannt ist) und nicht hierarchisches Lernen 
(zwei Regeln konnen unabhangig von einander entweder bekannt oder nicht bekannt 
sein) auf der Basis unterschiedlich restringierter Latent-Class-Modelle darstellen las- 
sen. Dabei werden Personen, die dieselben Regeln beherrschen/nicht beherrschen, 
jeweils als eine Klasse betrachtet. Eine kurze Beschreibung des mathematischen 
Modellansatzes findet man bei Langeheine & Van de Pol (1990), eine Programmbe- 
schreibung bei Van de Pol et al. (1989). 

Eine andere Art der Anwendung des Latent-Class-Ansatzes auf Lemdaten findet 
man bei Wiedl, Schottke & Gediga (1986). Ihr Interesse ist auf individuelle Unter- 
schiede im Lernfortschritt gerichtet. Sie boten Schiilern nichtverbale Problemloseauf- 
gaben (Farbiger Matrizentest nach Raven) dar, wobei beim zweiten Mai eine zusatzli- 
che Verbalisierungsinstruktion (Aufforderung zum “lauten Denken”) gegeben wurde. 
Sie verwendeten eine Latent-Class-Analyse, um verschiedene Schiilertypen (gleich- 
bleibend Leistungsstarke, gleichbleibend Leistungsschwache, Leistungsgewinner, 
spezifische Verbesserte usw.) zu definieren. Da sie bei einer relativ geringen Aufga- 
benzahl von nur 5 Items 8 latente Klassen erhielten, bleibt abzuwarten, ob dieser 
Ansatz auch bei groBeren Datenmengen zu einer okonomischen Klassifizierung fiihrt. 

Die Darstellung der verschiedenen Modellansatze sollte zeigen, daB es mit Hilfe 
von Latent-Trait- und Latent-Class-Modellen moglich ist, unterschiedliche Hypothe- 
sen iiber die Art des Lernprozesses (global, itemspezifisch, operationsspezifisch; mit 
und ohne Annahme von individuellen Unterschieden; Zuwachs auf einem quantitativ 
definiertem Kontinuum oder Wechsel zwischen qualitativen Klassen) mathematisch 
zu fassen und zu priifen. Dabei zeigt sich ein flieBender Ubergang zwischen Testtheo- 
rie, die primar auf individuelle diagnostische Anwendung gerichtet ist, und Allgemei- 
ner Psychologie, die eher grundlagenorientiert nach der Art der Lernprozesse fragt. 
Ein flieBender Ubergang besteht auch zur sogenannten Mathematischen Psychologie, 
die rein allgemeinpsychologisch orientiert verschiedene probabilistische ProzeBmo- 
delle fur Lemvorgange entwickelt hat. Diese Ansatze werden hier nicht referiert, da 
sie fur die Diagnostik bislang nicht zu praktischen Anwendungen gefiihrt haben. Als 
weiterfiihrende Literatur sei auf Spada & Kempf (1977) verwiesen. 

9.1.2 Anderungssensitivitat als Gesichtspunkt bei der Testkonstruktion 

Die Forderung, Tests so zu konstruieren, daB sie moglichst sensitiv auf Veranderun- 
gen reagieren, wurde vor allem von der Klinischen, aber auch von der Padagogischen 
Psychologie gestellt. Anderungssensitive Tests seien im Rahmen der Evaluationsfor- 
schung erforderlich, um den Erfolg von FordermaBnahmen oder Therapien sichtbar 
zu machen, aber auch in der Individualdiagnostik, um den Effekt einer Intervention 
im Einzelfall zu uberpriifen. Speziell in der Klinischen Psychologie wurde zu Recht 
kritisiert, daB es wenig sinnvoll ist, zur Beurteilung eines Therapieerfolgs Fragebo- 
gen zu verwenden, die zwar psychometrisch durchanalysiert und wohl etabliert sein 
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mogen, deren Fragen sich aber auf weit zuriickliegende Ereignisse beziehen oder so 
allgemein fonnuliert sind, daB sie den Probanden dazu veranlassen, bei der Urteils- 
bildung iiber einen langeren Zeitraum (Monate, Jahre) zu mitteln. Aktuelle Verande- 
rungen konnen in solchen MeBinstrumenten nicht zum Ausdruck kommen. In diesem 
Sinn kritisieren z.B. Hartig (1975) und Krauth (1983c) die Verwendung des MMPI, 
wenn es darum geht, die psychischen Folgen medizinischer Eingriffe zu beurteilen. 

Um solcher Kritik Rechnung zu tragen und Veranderungen gezielter zu erfassen, 
wurden zwei verschiedene Wege beschritten, die Krauth (1983c) im AnschluB an 
Bereiter (1963) als direkte und indirekte Veranderungsmessung bezeichnet. Bei der 
direkten Veranderungsmessung soil der Proband selbst das AusmaB der Veranderung 
beurteilen (“Ich hatte in den letzten vier Wochen seltener/haufiger Kopfschmerzen als 
zuvor”). Modifikationen derart, daB es sich nicht um Selbstauskiinfte, sondem um 
Auskiinfte anderer (Eltem, Lehrer) iiber den Probanden handelt, sind leicht vorstell- 
bar. Inwieweit freilich solche direkten Fragen nach der Veranderung den Befragten 
iiberfordem und damit in besonderem MaB subjektiven Verzerrungen unterliegen, wie 
z.B. suggestiven Einflussen aufgrund des Wissens um die therapeutischen Erwartun- 
gen, ist noch nicht geklart. Die Konstruktion von Fragebogen zur direkten Verande- 
rungsmessung erscheint zwar auch in verschiedenen Bereichen der Padagogischen 
Psychologie als moglich, doch liegen bislang publizierte Skalen nur aus dem Bereich 
der Klinischen Psychologie vor (z.B. Veranderungsfragebogen des Erlebens und Ver- 
haltens von Zielke, 1978; 1980; Zielke & Kopf-Mehnert, 1978; Fragen zu erlebten ge- 
sundheitlichen Veranderungen von Krampen & v. Delius, 1981). Als indirekte Veran- 
derungsmessung bezeichnet Krauth (1983c) Verfahren, bei denen zu zwei Zeitpunkten 
jeweils der Ist-Zustand erhoben wird. Wahrend die direkte Veranderungsmessung nur 
fur Bereiche in Betracht kommt, die als Selbst- oder Fremdeinschatzung mit Frage- 
bogen zu erfassen sind, setzt eine zweimalige Erhebung des Ist-Zustandes keine spe- 
zielle Testart voraus und kommt auch fur den Leistungsbereich in Betracht. Um ei- 
nen anderungssensitiven Test zu konstruieren, sollen die Items Probanden vor und nach 
einer entsprechenden MaBnahme vorgelegt werden, um dann diejenigen Items auszu- 
wahlen, die die Veranderung besonders deutlich anzeigen. Dazu wurden verschiedene 
Indizes vorgeschlagen, die von Krauth (1983c) vergleichend diskutiert wurden. 

Wenn jedes einzelne Item zu einem quantitativen Wert fiihrt (Rating-Skalen, Lo- 
sungszeiten oder Ahnliches), liegt es nahe, die durchschnittliche Differenz zwischen 
zweiter und erster Messung zu betrachten: 

D = x 2 -x, 

Es werden diejenigen Items ausgewahlt, die z.B. als Effekt eines Unterrichts den groB- 
ten durchschnittlichen Zuwachs anzeigen. 

Dieses einfache MaB ist allerdings nur dann sinnvoll zu interpretieren, wenn ( 1) 
alle Items dieselbe Skala verwenden und wenn (2) die Richtung der moglichen Ver- 
anderung (hier: Lemzuwachs) als bekannt vorausgesetzt werden kann. 

Wenn die Items nicht auf derselben Skala liegen, so daB zahlenmaBig gleiche Dif- 
ferenzen je nach Item eine ganz unterschiedliche Bedeutung haben, kann man versu- 
chen, eine bessere Vergleichbarkeit herzustellen, indem man fur jedes Item den Zu- 
wachs in Streuungseinheiten ausdriickt. Zieht man dazu die Streuung bei der ersten 
Messung heran, so erhalt man als MaB fur die Anderungssensitivitat eines Items den 
Index SI: 

SI =D/sj 
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Wenn die Richtung der Veranderung (Zuwachs oder Abnahme) nicht als bekannt vor- 
ausgesetzt werden kann, sondem die MaBnahme bei einem Teil der Probanden eine 
Zunahme, bei anderen eine Abnahme der Werte hervorrufen kann, so sind die Mit- 
telwertsdifferenz und darauf aufbauende Indizes keine geeigneten MaBe, um die An- 
derungssensitivitat auszudrucken. Wenn sich positive und negative Veranderungen die 
Waage halten, ist die Mittelwertsdifferenz Null, auch wenn der MeBwert jedes ein- 
zelnen Probanden sich stark geandert hat. In diesem Fall ist es zweckmaBig, die durch- 
schnittliche quadrierte Differenz zu betrachten: 

51 = £ ( X2 - Xi ) 2 

n 



n = Zahl der Personen 

Auch die durchschnittliche quadrierte Differenz kann aus Griinden der besseren Ver- 
gleichbarkeit zwischen den Items standardisiert werden. Dazu kann man sie durch die 
Varianz bei der ersten Messung oder auch durch die Varianz der Differenzen teilen. 
Man erhalt dann die Indizes: 

SI * =Tp / s? 



und 



SI ** = D 2 / Sd 



mit Sd = Varianz der Differenzen 

Diese MaBe der Anderungssensitivitat von Items sind zunachst fur quantitative 
Items definiert. Analoge MaBe lassen sich auch fur Items mit nur zwei Antwortkate- 
gorien (richtig/falsch; ja/nein) bilden: Zum einen kann man die Anderung der Item- 
Schwierigkeit (=Prozentsatz richtiger Losungen) betrachten. Dieses MaB ist sinnvoll, 
wenn Anderungen nur in eine Richtung (z.B. Zunahme der Losungswahrscheinlich- 
keit) erwartet werden. Wenn Anderungen in beiden Richtungen moglich sind, so kann 
man den Prozentsatz der Kategorienwechsler berechnen. Weitere MaBe, insbesonders 
auch fur Items mit mehr als zwei qualitativ unterschiedenen Antwortkategorien und 
Fragen der Signifikanzpriifung, sind bei Krauth (1983c) behandelt. 

Kritisch ist allerdings anzumerken, daB man wohl nicht erwarten kann, mit Hilfe 
solcher Indizes zur Anderungssensitivitat bestimmte Items ein fur alle Male als an- 
derungssensitiv oder nicht anderungssensitiv klassifizieren zu konnen. Ob und in 
welchen Items Anderungen auftreten, hangt ja nicht nur vom Inhalt der Items ab, son- 
dern auch von der Art der MaBnahme und der Zusammensetzung der Personenstich- 
probe. 

Die Abhangigkeit von der Zusammensetzung der Personenstichprobe laBt sich an 
einem einfachen Beispiel demonstrieren: Abbildung 9.1 zeigt drei Items (I, II, II) ei- 
ner Rasch-Skala und die Positionen dreier Probanden (A, B, C) auf dem Fahigkeits- 
kontinuum. Durch eine MaBnahme (Teilnahme am Unterricht) sei jeder Proband ein 
Stuck auf dem Fahigkeitskontinuum nach rechts geriickt (Positionen A’, B\ C’)- 
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Abbildung 9.1: Unterschiedliche Anderungssensitivitat von drei Items (I, II, III) fiir drei 
Probanden a, b, c. 




Die Anderung des Probanden A von Position A nach A’ wird nur von Item I. die Anderung des 
Probanden B von B nach B’ von den Items I und II, die Anderung von Proband C nach C’ nur 
von Item III durch eine groBe Veranderung in der Losungswahrscheinlichkeit angezeigt. 

Betrachtet man die Losungswahrscheinlichkeiten fiir die drei Items vor und nach 
dem Unterricht, so sieht man, daB die Veranderung des Probanden A vor allem von 
Item I angezeigt wird (die Losungswahrscheinlichkeit steigt von nahe Null auf einen 
Wert nahe Eins), nicht aber von den schwierigeren Items II und III, fiir die die Lo- 
sungswahrscheinlichkeit nach wie vor gering ist. Bei Proband B erscheinen die Items 
I und II als anderungssensitiv, bei Proband C nur Item III. Je nachdem, ob eine Stich- 
probe hauptsachlich Probanden vom Typ A, B, oder C enthalt (allgemein gesagt: je 
nachdem, in welchem Skalenbereich sich die Veranderungen abspielen), wird das eine 
oder andere Item als anderungssensitiver erscheinen. In der Regel will man freilich 
einen Test nicht auf eine spezielle Stichprobenzusammensetzung hin zuschneiden, 
sondem ihn so konstruieren, daB Veranderungen in alien Skalenbereichen gut ange- 
zeigt werden. Diesem Anliegen entspricht die Empfehlung der klassischen Testtheo- 
rie, die Itemschwierigkeiten iiber den gesamten Bereich zu verteilen, in dem sich 
Veranderungen abspielen konnen. 

In obigem Beispiel wurde zunachst nur der einfache Fall betrachtet, daB die Items 
homogen sind und sich die Veranderung formal als Zuwachs auf einem eindimensio- 
nalen Fahigkeitskontinuum darstellen laBt. Padagogische FordermaBnahmen und In- 
terventionen sind in der Regel komplexer Natur und lassen unterschiedlich starke 
Wirkungen in verschiedenen kognitiven, emotionalen und motivationalen Bereichen 
erwarten. 

Wenn nun in einem inhaltlich heterogenen Test bestimmte Items oder Itemgrup- 
pen keine Veranderung ausweisen, so ware es kurzschliissig, diese Items einfach als 
“nicht anderungssensitiv” auszuscheiden und dem negativen Ergebnis inhaltlich kei- 
ne Beachtung zu schenken. Wenn z.B. ein Nachhilfeunterricht in Mathematik die 
Angst vor Klassenarbeiten in Mathematik reduziert, nicht aber die allgemeine Schul- 
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unlust, so sind beide Ergebnisse padagogisch relevant. Die Fragen zur allgemeinen 
Schulunlust als “nicht anderungssensitiv” weil “zu allgemein formuliert’' auszuschei- 
den, hieBe einen wichtigen Befund zu ignorieren. Eine andere MaBnahme, die z.B. 
auf die Verbesserung des Schulklimas insgesamt abzielt, kann gerade umgekehrt bei 
den Items zur allgemeinen Schulunlust Effekte zeigen, wahrend die Priifungsangst 
fachspezifisch gemessen nahezu unbeeinfluBt bleibt. Wenn sich dann ein bestimmter 
Bereich, z.B. eine schwere Verhaltensstorung, bei verschiedenen MaBnahmen immer 
wieder als kaum beeinfluBbar erweist, so ist auch das ein - wenngleich bedauerliches 
- so doch inhaltlich wichtiges Ergebnis. 

Aus den vorgetragenen Argumenten lassen sich folgende SchluBfolgerungen zie- 
hen: Wenn man weder weiB, was die Tests messen noch was die MaBnahme bewirkt, 
so werden auch Indizes zur Anderungssensitivitat nicht viel weiterhelfen. Wer eine 
MaBnahme evaluieren will, muB Hypothesen dariiber haben, worauf sich die MaBnah- 
me auswirkt, und die Tests entsprechend zusammenstellen. DaB sich die Vergangen- 
heit nicht andern laBt und sich somit Fragen liber weit zuriickliegende Ereignisse er- 
iibrigen, sollte in diesem Zusammenhang trivial sein. Relativ allgemein gehaltene 
Fragen sind dagegen nicht von vomherein abzulehnen: Ob sich durch eine spezifi- 
sche MaBnahme, die einen engen Verhaltensbereich betrifft, auch breitere Effekte 
erzielen lassen, ist in jedem Einzelfall empirisch zu entscheiden, wobei sowohl posi- 
tive als auch negative Ergebnisse fur die Praxis relevant sind. 

AbschlieBend sei nochmals auf einen bereits eingangs betonten Punkt hingewie- 
sen: Weder direkte noch indirekte Veranderungsmessung gibt von sich aus Auskunft 
dariiber, wodurch die Veranderung zustande kam: durch MeBfehler, die zufallig an- 
ders ausgefallen sind, durch Testwiederholungs- und Ubungseffekte, Reifungspro- 
zesse, Spontanheilung usw., oder eben durch die padagogische MaBnahme. Altema- 
tiverklarungen auszuschalten und eine Interpretation des Effekts als Wirkung der 
MaBnahme sicherzustellen, ist Sache der experimentellen oder quasi-experimentel- 
len Versuchsplanung. Viele Fragestellungen padagogischer und psychologischer 
Evaluationsforschung lassen sich ebenso gut, wenn nicht besser, unter Umgehung der 
Veranderungsmessung behandeln (siehe Kapitel 9.2). 



9.1.3 Der Lerntest-Ansatz 

Die Entwicklung von Lemtests stellt einen Ansatz zur Veranderungsmessung dar, der 
aus einem spezifischen inhaltlichen Anliegen der Padagogisch-psychologischen Dia- 
gnostik entstand. Urspriingliches Ziel der Lerntestforschung, wie sie im deutschen 
Sprachraum vor allem durch die Arbeitsgruppe um Guthke (1972) initiiert wurde, war 
es, die traditionelle Intelligenzdiagnostik, die als bloBe Status- oder Zustandsdiagno- 
stik kritisiert wurde, durch die Diagnostik der Lernfahigkeit als einer “Diagnostik 
intraindividueller Veranderlichkeit” (Guthke 1982), als einer “dynamischen Diagno- 
stik’' (Carlson & Wiedl, 1980) zu ersetzen. Dazu sollten in einer standardisierten Lern- 
situation optimierende Bedingungen geschaffen werden. Die diagnostisch relevante 
Information sollte dann der Lernforischritt sein, also der erzielte Zuwachs, nicht der 
in der Vergangenheit aufgrund hemmender oder fordernder Bedingungen erreichte 
Zustand. Dadurch sollte speziell bei bisher Benachteiligten vorhandene Lernfahigkeit 
erkannt werden. AuBerdem soli durch die erhohte “okologische Validitat”, die Lem- 
tests in bezug auf Lernanforderungen haben sollen (Guthke, 1982) auch eine besse- 
re prognostische Validitat erreicht werden. 
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Projekte mit ahnlicher Zielsetzung, wie sie in den Sechziger- und Siebzigerjahren 
in der Arbeitsgruppe um Guthke formuliert wurden, wurden etwa zu gleicher Zeit in 
verschiedenen anderen Landern betrieben, so z.B. von Budoff in Cambridge ab 1964, 
von Feuerstein in Jerusalem ab 1970, von Flammer in der Schweiz 1974. (Naheres 
dazu findet man bei Kornrann, 1982.) 

Im folgenden soil iiber die Entwicklung von Lerntests nicht nur unter methodischen 
Gesichtspunkten berichtet werden, sondem es sollen auch die inhaltlichen Ergebnis- 
se mit einbezogen werden, die schlieBlich zu einem Wandel des Forschungsinteres- 
ses gefiihrt haben. 

Testmaterial und Vorgehen: Bei der Auswahl des Lemmaterials wird vielfach direkt 
auf herkommliche Intelligenztests zuriickgegriffen, oder zumindest sehr ahnliches 
Aufgabenmaterial verwendet. Am beliebtesten sind Aufgaben, bei denen es darum 
geht, Regeln zu erkennen und anzuwenden oder Beziehungen zu iibertragen, also 
Tests, die nach dem faktorenanalytischen Konzept der Intelligenz hohe Ladungen im 
Generalfaktor, in Reasoning oder im logisch-induktiven Denken aufweisen. Weitaus 
am haufigsten wurden Tests vom Muster des Raven-Matrizentests verwendet, weiter 
Reihenfortsetzungs-Tests (Zahlenreihen, Symbolreihen), Analogieaufgaben (A : B = 
C : ?), der Mosaik-Test aus dem HAWIE, usw. Im Unterschied zum Vorgehen bei der 
Intelligenzmessung, wo den Probanden das Material ohne Riickmeldung iiber die 
Richtigkeit der Losung zur selbstandigen Bearbeitung iiberlassen wird, wird bei Lern- 
tests das Losen der Aufgaben in Interaktion mit dem Versuchsleiter trainiert. Je nach 
zeitlicher Gestaltung dieses Trainings wird zwischen Kurzzeit- und Langzeit-Lern- 
tests unterschieden: Bei Kurzzeit-Lemtests findet nur eine Testdurchfiihrung statt. 
Wahrend der Durchfiihrung wird Riickmeldung gegeben und eventuell standardisier- 
te Hilfestellungen geboten. Bei Langzeit-Lerntests findet eine Vormessung statt, dar- 
an schlieBt sich die Unterrichtsphase (Erklarungen, Training) an, danach erfolgt eine 
zweite Messung. Art und Dauer der Unterrichtsphase kann dabei recht unterschied- 
lich sein (von 20 Minuten Training zwischen erster und zweiter Testdurchfiihrung bis 
zu taglichem Training iiber mehrere Wochen). Eine tabellarische Ubersicht iiber eine 
Vielzahl von Untersuchungen mit Kurzbeschreibungen des verwendeten Materials 
und der Art des Trainings gibt Kornrann (1982). Ausfiihrlichere Beschreibungen fin- 
det man (auBer in den einschlagigen Originalarbeiten) in den zusammenfassenden 
Darstellungen von Kornrann (1979) oder Guthke (1972; 1980a). 

Da bei Kurzzeit-Lerntests nur eine Testdurchfiihrung stattfindet, kann zwischen in- 
terindividuellen Unterschieden in der Ausgangslage und im Lemzuwachs nicht un- 
terschieden werden. Als Testwert wird der in dieser einen Testdurchfiihrung erreichte 
Punktwert verwendet. Bei Langzeit-Lerntests hingegen liegen zwei Messungen vor. 
Als MaB fiir den Lerngewinn bietet sich zunachst die Differenz zwischen erster und 
zweiter Messung an. Solche Differenzen sind aber mit methodischen Problemen (ge- 
ringe Reliabilitat, Skalenprobleme, insbes. Artefakte durch Deckeneffekte) belastet 
und haben sich auch praktisch nicht bewahrt (Guthke, 1972 S. 115; Legler, 1977). 
Deshalb wird als Testwert durchweg der Wert der zweiten Messung verwendet. Da- 
mit wird freilich das urspriingliche Konzept, Veranderungen zu erfassen, nur un- 
zulanglich realisiert. Insbesonders wird der Sinn der ersten Messung unklar: Ein 
Vorgehen ohne Vortest, bei dem auf Erklarungen und gemeinsames Training eine Test- 
phase folgt, wiirde dem gewohnten Schulalltag ebenso gut entsprechen. Flammer & 
Schmid (1982) weisen zu Recht darauf hin, daB dort, wo es um prognostische Validi- 
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tat geht, die beiden Messungen mittels multipier Regression optimal zu gewichten 
waren. Diese optimale Gewichtung diirfte in der Regel weder auf eine alleinige Ver- 
wendung der zweiten Messung noch auf eine Differenzbildung hinauslaufen, sondern 
beiden Testdurchfiihrungen positive Gewichte zuordnen. 

Die Bewahrung von Lerntests: Zur Bewahrung von Lerntests liegt inzwischen eine 
groBere Zahl von Arbeiten, teils einfache Erfahrungsberichte, teils systematisch ver- 
gleichende Validitatsstudien vor. Diese wurden bereits in mehreren Ubersichtsrefera- 
ten gesichtet (Flammer & Schmid, 1982; Guthke, 1972; 1976; 1980a und b, 1982; 
Guthke & Lehwald, 1984; Kornrann, 1979, 1982; Kornrann & Sporer, 1983). 

Am meisten Angaben findet man zum Vergleich zwischen Kriteriumskorrelationen 
(Schulnoten, Lehrerurteil) von erster und zweiter Messung bei Langzeit-Lemtests. 
Die erste Messung steht dabei fur die konventionelle Diagnostik, die zweite fur das 
Lerntest-Konzept. Die Ergebnisse sind uneinheitlich: In den von Guthke (1972) re- 
ferierten Arbeiten (iiberwiegend unveroffentlichte Examensarbeiten aus Leipzig) En- 
den sich weit haufiger hohere Kriteriumskorrelationen fur die zweite Messung als fur 
die erste: Nach einer Auszahlung von Flammer (1975) sind bei den Noten als Krite- 
rium in 37 von 41 Stichproben die Korrelationen fur die zweite Messung hoher (Me- 
dian der Kriteriumskorrelationen fur die zweite Messung 0.60, fur die erste 0.49), bei 
der Intelligenzbeurteilung durch den Lehrer als Kriterium sind sie in 17 von 25 Stich- 
proben hoher. Weitere Untersuchungen mit positiven Ergebnissen, insbesondere po- 
sitive Erfahrungsberichte iiber Anwendungen im unteren Intelligenzbereich (Hilfs- 
schiiler, Debile) sind bei Guthke (1980b) referiert. Dem stehen allerdings negative 
Befunde anderer Autoren gegeniiber: Melchinger (1981) fand in einer Untersuchung 
mit einem Langzeit-Lemtest (zwischen den beiden Tests lagen 3 Trainings-Sitzungen 
zu je 2 Stunden) an 175 Schiilern/innen der gymnasialen Oberstufe keine hohere Va- 
liditat des Posttests gegeniiber dem Vortest, oder auch des Posttests der trainierten 
Gruppen gegeniiber einer Kontrollgruppe mit bloBer Testwiederholung. Flammer 
(1974) fand in einem Langzeit-Lerntest (zwischen den beiden Tests lagen zwei Wo- 
chen mit taglich einer halben Stunde Training) ebenfalls nur geringe und unsystema- 
tische Unterschiede in den Kriteriumskorrelationen (Noten nach dem Ubergang zur 
Oberschule) fiir erste und zweite Messung. Ahnlich geringe und unsystematische Kor- 
relationsunterschiede fanden Legler (1977) bei Schulanfangem und Wieland (1978, 
zit. nach Guthke, 1980b) bei Normalschiilern (im Unterschied zu fraglich Debilen, 
fiir die er positive Ergebnisse berichtet). Insgesamt wird man sich demnach den 
SchluBfolgerungen von Flammer & Schmid (1982) und Wiedl (1984) anschlieBen 
miissen, wonach eine generelle Uberlegenheit von Lerntests gegeniiber Statustests 
nicht als belegt gelten kann. 

Verschiedene Autoren sind der Frage nach Zusammenhangen zwischen Lerntester- 
gebnissen und moglicherweise leistungshemmenden Personlichkeitsmerkmalen nach- 
gegangen. Gerade wenn die Lemtestsituation der schulischen Lernsituation stark an- 
geglichen wird, so ist zu vermuten, daB dieselben emotionalen und motivationalen 
Einfliisse, die den bislang erreichten Schulerfolg determinieren, sich auch in der stan- 
dardisierten Lernsituation auswirken, was dem Anliegen, kognitive Kapazitat zu er- 
fassen, zuwider liefe. Vor allem aus der Leipziger Gruppe (referiert bei Guthke & 
Lehwald, 1984) liegen eine Reihe von Untersuchungen vor, in denen Fragebogen zur 
Angstlichkeit (Testangst, Lernangst), Stress- und Frustrationstoleranz und Neurotizis- 
mus mit Lerntestergebnissen korreliert wurden. Die Ergebnisse sind uneinheitlich: 




9.1 Formale und inhaltliche Ansatze zur Messung von Veranderungen 



181 



Drei Arbeiten (Stile, 1979; Hentrich & Reich, 1979; Muller 1979; alle zitiert nach Guthke 
& Lehwald, 1984) berichten liber Korrelationen zwischen Angstlichkeit und erster sowie zwei- 
ter Messung bei Langzeit-Lerntests. Entgegen der Erwartung der Autoren waren die Korrela- 
tionen zur zweiten Messung nicht niedriger, sondem - sofern signifikante Unterschiede auf- 
traten - hoher als zur ersten Messung. Gunther & Gunther (1981) hingegen fanden bei vier von 
sechs Lemtests etwas hohere Zusammenhange zwischen aktueller Befindlichkeit und erster 
gegeniiber zweiter Messung. Weiter sollen Stress- und Frustrationstoleranz etwas hohere Kor- 
relationen zur zweiten als zur ersten Messung zeigen (Guthke & Lehwald, 1984, ohne Quel- 
lenangabe). 

Bei Kurzzeit-Lemtests fanden Carlson & Wiedl (1976, zit. nach Guthke & Lehwald, 1984) 
niedrigere Korrelationen des Neurotizismus mit einer Lerntestvariante als mit der Standard- 
version des Matrizentests. In einer Reihe weiterer Untersuchungen (referiert bei Guthke, 1972; 
Guthke & Lehwald, 1984) fanden sich keine Korrelationen zwischen Neurotizismus und er- 
ster und zweiter Messung in Langzeit-Lerntests. 

Insgesamt laBt sich somit wohl nicht belegen, daB Langzeit-Lerntests gerade flir 
angstliche Personen besonders geeignet waren. Das ist auch verstandlich, da ja die 
zweite Messung im Langzeit-Lerntest ohne Riickmeldung und Hilfen erfolgt, also der 
schulischen Priifungssituation gleicht. Fur Kurzzeit-Lerntests sieht es moglicherwei- 
se anders aus: Wiedl et al. (1982) berichten, daB sowohl eine Kurzzeit-Lemtest-Ver- 
sion (Verbalisierung und Riickmeldung), aber auch eine bloBe Verbalisierungs-In- 
struktion (ohne Riickmeldung) des Raven-Tests, verglichen mit der Standardversion 
als weniger angstauslosend empfunden wurde. Zumindest bei Einzeldurchfiihrung er- 
scheint es plausibel, daB Verbalisation und Riickmeldung die Testsituation natiirlicher 
und entspannter erscheinen lassen. Bei Kurzzeit-Lemtests, bei denen nur Richtig- 
Falsch-Riickmeldung gegeben wird, ist jedoch zu bedenken, daB gerade die Leistungs- 
schwacheren viel negative Riickmeldung bekommen, was zu aversiven Reaktionen 
fiihren kann (Rollett, 1985). 

Verschiedene Untersuchungen befassen sich mit der Frage, ob Unterschiede im 
kognitiven Stil sich auch bei Lemtests auswirken. Bei Tests vom Typ des Matrizen- 
tests erzielen impulsive Kinder schlechtere Ergebnisse als reflexive. Dieses Ergebnis 
erhalt man auch bei Lemtests, sowohl bei Kurzzeit-Lemtests als auch in beiden Mes- 
sungen bei Langzeit-Lerntests. Dieses Ergebnis wurde in mehreren Untersuchungen 
bestatigt (Naheres siehe Guthke & Lehwald, 1984). Eine Ausnahme findet man bei 
Carlson & Wiedl (1980), wo in einer von mehreren Kurzzeit-Varianten die impulsi- 
ven Kinder besser abschnitten als die reflexiven. 

Wandel des Forschungsinteresses: Wie oben dargestellt, hat der Lemtestansatz die 
Hoffnungen auf hohere prognostische Validitat oder groBere Unabhangigkeit von 
dysfunktionalen emotionalen oder motivationalen Komponenten nicht in befriedigen- 
dem AusmaB erfiillt. Hinzu kommen Forschungsergebnisse, die es fraglich erschei- 
nen lassen, ob sich uberhaupt Lemsituationen herstellen lassen, die llir alle Schuler 
gleichermaBen als optimierend gelten konnen. So z.B. berichten Carlson & Wiedl 
(1980) zusammenfassend liber eine Reihe eigener Untersuchungen, in denen verschie- 
dene Durchfuhrungsarten des Raven-Tests, darunter auch Lerntest-Varianten, mit 
einander verglichen wurden. Verschiedene Verbalisierungs-Instruktionen (keine Ver- 
balisierung / Vp muB die Losung begriinden / Vp muB auch wahrend des Losens ver- 
balisieren) wurden mit verschiedenen Riickmeldungsarten (keine / nur richtig oder 
falsch / richtig oder falsch mit Begriindung) kombiniert. Dabei zeigte sich, daB die 
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Unterschiede zwischen den Durchfuhrungsbedingungen sowohl von der Aufgaben- 
art (Unterteilung des Tests in Aufgabengruppen, Darbietung als Buchform oder als 
Puzzle) als auch verschiedenen Personmerkmalen (Alter, Leistungsniveau, Impulsi- 
vitat-Reflexivitat) abhingen. Angesichts solcher Ergebnisse erscheint das Ziel, einen 
Lerntest zu konstruieren, bei dem in einer fur alle Probanden optimierenden Femsi- 
tuation die wahre Lemfahigkeit zutage trltt, nicht mehr als realistisch. 

Die daraus zu ziehende Konsequenz sieht unterschiedlich aus, je nachdem, ob man 
primar an Grundlagenforschung oder an Anwendung interessiert ist: Interessiert man 
sich primar fur die Prognose des Schulerfolgs, so liegt es nahe, moglichst hohe Uber- 
einstimmung zwischen Lerntest-Situation und schulischer Lernsituation herzustellen. 
Kornrann (1979) fordert, Lerntests sollten moglichst unterrichtsbezogen sein und in 
Zusammenarbeit mit Didaktikern aufgrund facherspezifischer Fehleranalysen entwik- 
kelt werden. Wiedl & Herrig (1978) stellten die Hypothese auf, daB es von der Art 
des schulischen Unterrichts (konventionell, lehrerorientiert oder “adaptiv”, d.h. in 
Kleingruppen unter Betonung des Verbalisierens und der Selbstkorrektur) abhinge, 
ob ein Intelligenztest (CFT 1) oder ein Ferntest das Unterrichtsergebnis besser vor- 
hersagt. Die Unterschiede zwischen den Korrelationen gingen in die erwartete Rich- 
tung, sind aber (wenngleich inzwischen mehrfach zitiert, z.B. von Flammer & Schmid 
(1982) als “Nachweis” fur die Relevanz “okologischer Validitat” ) von Signifikanz 
weit entfernt. 

Mehr an Grundlagenforschung interessierte Psychologen (Guthke & Fehwald, 
1984) versuchen auf der Grundlage einer Theorie zur allgemeinen Intelligenz naher 
zu analysieren, welche Teilprozesse durch Training beeinfluBt werden. Gegenstand 
der Prognose sind dann nicht mehr praktisch relevante Validitatskriterien wie Noten 
oder Fehrerurteil, sondem Feistungen bei gezielt ausgewahlten experimentellen Fer- 
nanforderungen (Begriffslern-Aufgaben, Mustererkennen), die bestimmte 
Informationsverarbeitungsprozesse erfordem. Wiedl (1984) weist auf die vielfaltigen 
Moglichkeiten hin, die sich bei systematischer Variation standardisierter Femsitua- 
tionen in verschiedenen Bereichen der Grundlagenforschung (Entwicklungspsycho- 
logie einschlieBlich Alternsforschung, Personlichkeitspsychologie, Klinische Psycho- 
logic usw.) ergeben. 

Zusammenfassung 

Innerhalb verschiedener psychometrischer Ansatze laBt sich Veranderung auf unter- 
schiedliche Art darstellen: In der klassischen Testtheorie als Zuwachs oder Abnahme 
im wahren Wert, im Fatent-Trait-Ansatz als Zunahme oder Abnahme des Personpa- 
rameters. Dartiber hinaus bieten speziellere Fatent-Trait-Modelle die Moglichkeit 
zwischen globalem, itemspezifischem und operationsspezifischem Fernen zu unter- 
scheiden. Im Fatent-Class-Modell kann Fernen als Ubergang von einer latenten Klas- 
se in eine andere dargestellt werden. 

Weniger von psychometrischen Modellen als von inhaltlichen Fragestellungen 
ausgehend wurden Vorschlage gemacht, wie man anderungssensitive Tests konstru- 
ieren konne: Bei direkter Veranderungsmessung wird der Proband direkt gefragt, ob 
eine Veranderung aufgetreten ist. Bei indirekter Veranderungsmessung werden die 
Items zwei Mai vorgelegt und diejenigen Items zu einem anderungssensitiven Test 
zusammengestellt, die am meisten Veranderung anzeigen. Auf Probleme dieses An- 
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satzes wurde hingewiesen: Je nach Art der MaBnahme und Zusammensetzung der 
Probandenstichprobe konnen jeweils andere Items als besonders anderungssensitiv 
erscheinen. 

Lemtests sind mit dem Ziel entwickelt worden, den Lernfortschritt in einer stan- 
dardisierten Lemsituation zu erfassen und damit moglicherweise diagnostisch rele- 
vantere Information zu erhalten, als das mit einer einmaligen Messung (Messung der 
Ausgangslage) moglich ist. Die Differenz zwischen Vortest und Nachtest wurde als 
MaB der Lemfahigkeit schon frith aufgegeben, sowohl aus methodischen Griinden als 
auch aufgrund mangelnder praktischer Bewahrung. Bei Langzeit-Lemtests (Vortest 
- Lernphase - Nachtest) wurde meist der Nachtest als diagnostisches MaB verwendet; 
oder aber es findet iiberhaupt nur eine Testvorgabe statt, bei der durch Riickmeldung 
und Erklarungen wahrend der Testdurchfiihrung Lernen ermoglicht wird (Kurzzeit- 
Lerntest). Die Erwartungen, mit Lerntests das Lernpotential unabhangig von der Aus- 
gangssituation bestimmen zu konnen, und damit insbesonders sozial benachteiligten 
Kindern besser gerecht werden zu konnen als mit herkommlichen Tests, wurden iiber- 
wiegend nicht erfullt: Vergleichende Untersuchungen fiihrten zu einer Vielzahl unein- 
heitlicher Ergebnisse. Als Folge davon trat ein Wandel im Forschungsinteresse auf: 
Lerntests konnen zum einen in Richtung auf eine moglichst hohe Ubereinstimmung 
mit der schulischen Lemsituation weiterentwickelt werden, um dann fur schulisches 
Lernen eine moglichst hohe prognostische Validitat zu erreichen. Sie konnen ande- 
rerseits auch als standardisierte Lemsituationen zu experimentellen Zwecken in der 
Grundlagenforschung herangezogen werden. 



Einfuhrende Literatur: 

Petermann, F. (1986). Probleme und neuere Entwicklungen der Veranderungsmessung 
- ein Uberblick. Diagnostica, 32, 4-16. 
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9.2 Methodische Probleme bei der Messung von Behandlungs- 
effekten in der Evaluationsforschung 



1 . Was sind typische Aufgabenstellungen Padagogisch-psychologischer Evalua- 
tionsforschung? 

2. Wie kann bei experinientellem Vorgehen der Effekt einer MaBnahme nach- 
gewiesen werden? 

3. Wie lassen sich individuelle Unferschiede im Zuwachs erfassen, und welche 
methodischen Probleme treten insbesonders im Umgang mit Nachtest-Vortest- 

„ ' 1 Differenzen auf? 

4. Welche typischen Probleme treten in quasi-experimentellen Versuchsplanen 
beim Nachweis von Behandlungseffekten auf? 

5. Kann Evaluation auch ohne wissenschaftliche Methodik belrieben werden? 



Vorstrukturierende Lesehilfe 

Hauptanliegen Padagogisch-psychologischer Evaluationsforschung ist es, die Wir- 
kung von MaBnahmen, z.B. neuen Forderprogrammen, nachzuweisen und zu analy- 
sieren. Wie in 9.2.1 dargestellt, kann dabei die Entwicklung der Fragestellung je nach 
den vom Auftraggeber gesetzten Vorgaben in unterschiedlichen Stadien abgebrochen 
oder vertieft und weitergefiihrt werden. In 9.2.2 werden typische methodische Pro- 
bleme padagogischer Evaluationsforschung an drei Beispielen behandelt. Das The- 
ma des ersten Beispiels “Verbalisieren beim Problem Ibsen’' laBt sich experimentell 
behandeln, so daB der Nachweis des Effekts keine besonderen Probleme aufwirft. Die 
daran anschlieBende Analyse des Effekts (Welche Probanden haben vom Verbalisie- 
ren mehr, welche weniger profitiert?) ist methodisch schwieriger zu beantworten. An 
diesem Beispiel werden vor allem Probleme im Umgang mit Nachtest-Vortest-Diffe- 
renzen behandelt. Dazu zahlen Skalenprobleme, Reliabilitatsprobleme und die nega- 
tive MeBfehler-Kovarianz zwischen Ausgangswerten und Zuwachs. 

AnschlieBend an die methodische Diskussion der Vortest-Nachtest-Differenz als 
VeranderungsmaB geht es um die Frage der Abgrenzung des Behandlungseffekts (Ver- 
balisieren) von anderen Veranderungen (z.B. durch Gewohnung und Ubung). Dazu 
ist eine Kontrollgruppe erforderlich. Als MaB des individuellen Behandlungseffekts 
kann dann die Abweichung von der Regressionsvorhersage aus der Kontrollgruppe 
verwendet werden. Vor- und Nachteile dieses MaBes werden diskutiert. 

Die folgenden beiden Beispiele “Fruhforderung der kognitiven Entwicklung” und 
“Vergleich der Effektivitat von Sonderschule und Regelschule bei leistungsschwachen 
Kindern” dienen der Diskussion von Problemen, wie sie fur quasi-experimentelle 
Forschung charakteristisch sind. Dazu zahlen Regressionseffekte, Probleme bei der 
Zusammenstellung der Kontrollgruppe und selektiver Ausfall von Versuchspersonen. 

In einem letzten Punkt (9.2.3) geht es um die These, der Einsatz traditioneller Me- 
thodik sei in der Evaluationsforschung uberflussig und durch ein “naturalistisches” 
Vorgehen zu ersetzen. Aufgrund der in den vorangehenden Abschnitten dargestellten 
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methodischen Probleme und Fehlerquellen, die oft nicht ohne weiteres erkennbar sind 
(wie z.B. der Regressionseffekt), diirfte offenkundig sein, wie naiv es ist, diese Pro- 
bleme mit “naturalistischem’' Vorgehen und freier Beschreibung umgehen zu wollen. 



9.2.1 Das Anliegen 

Neben der individuellen Diagnostik im Rahmen von Beratungssituationen ist die 
Evaluationsforschung ein weiterer wichtiger Einsatzbereich Padagogisch-psycholo- 
gischer Diagnostik. Evaluationsforschung ist primar anwendungsorientierte For- 
schung, haufig als abgegrenzter Forschungsauftrag von einem Auftraggeber (z.B. ei- 
nem Ministerium) veranlaBt. Es kann z.B. um die Beurteilung des Erfolgs gezielter 
FordermaBnahmen (z.B. Zusatzunterricht bei Lese-Rechtschreibschwache) gehen, um 
den Vergleich von Schulsystemen (Gesamtschule versus traditionell dreigliedriges 
Schulsystem), um die Effizienz von Institutionen (z.B. der Berufsberatung), aber auch 
um allgemeinere Fragen wie den Vergleich von Unterrichtsmethoden und Lehrstilen. 

Ahnlich wie bei der individuellen Diagnostik ist zunachst das Anliegen des Auf- 
traggebers in eine Fragestellung bzw. ein Biindel von Fragestellungen umzusetzen. 
Dabei kann zunachst eine Beschreibung des Ist-Zustandes im Vordergrund stehen, um 
auf dieser Grundlage Umfang und AusmaB des Problems zu beurteilen, z.B.: Wie 
haufig ist Schulversagen in der Grundschule? Welche Kinder sind betroffen? Wie 
sieht die weitere schulische und auBerschulische Entwicklung dieser Kinder aus? 

Aufgrund der Problemanalyse konnen entweder erste praktische Konsequenzen 
gezogen werden, oder es konnen zumindest Hypothesen gebildet werden, mit welchen 
MaBnahmen (bzw. Anderungen an vorhandenen MaBnahmen) Verbesserungen erzielt 
werden konnten, auch wenn diese Hypothesen erst noch der empirischen Uberpriifung 
bediirfen. Das kann zunachst in einem Probelauf geschehen, bei dem die MaBnahme 
weiterentwickelt und evaluiert wird. Auch bei der Evaluation des Probelaufs wird zu- 
nachst eine Beschreibung des Ablaufs gefragt sein: Wurde die Zielgruppe erreicht? 
Konnten die Beteiligten (Kinder, Eltem, Lehrer) zur Mitarbeit gewonnen werden? Wie 
lief das Programm ab? Welche Probleme traten auf? Wurde die MaBnahme wie ge- 
plant zu Ende gefuhrt? - Wenn die Antwort auf diese Fragen zufriedenstellend aus- 
fallt, so schlieBt sich daran als nachstes die Frage, welche Veranderungen (im Sinne 
der Zielsetzungen des Programms oder auch positiver wie negativer Nebenerschei- 
nungen) aufgetreten sind und ob bzw. inwieweit diese Veranderungen auf das Pro- 
gramm zuriickzufuhren sind. 

Wahrend bei der Beschreibung der MaBnahme Objektivitat, Neutralist und Voll- 
standigkeit der Berichterstattung als methodische Qualitatsanforderungen im Vorder- 
grund stehen, treten bei der Schatzung der Programmeffekte Fragen der versuchstech- 
nischen Kontrolle hinzu, um alternative Erklarungsmoglichkeiten fur aufgetretene 
Veranderungen auszuschlieBen. 

An die Schatzung der Programmeffekte anschlieBend kann die Fragestellung in ver- 
schiedene Richtungen hin weiterentwickelt werden: 

(a) Es kann entweder - die Verallgemeinerbarkeit der Ergebnisse voraussetzend - 
eine Kosten-Nutzen-Analyse bei einer Einfiihrung auf breiterer Basis erstellt werden. 

(b) Oder man kann, eingedenk dessen, daB jede Erprobung unter speziellen Rah- 
menbedingungen stattfindet, vorsichtiger sein und zunachst die Verallgemeinerbar- 




9.2 Methodische Probleme bei der Messung von Behandlungseffekten 



187 



keit ausloten, indem man die MaBnahme an verschiedenen anderen Standorten wie- 
derholt. Man wird dann auf eine moglichst genaue Dokumentation des Ablaufs Wert 
legen, um bei unterschiedlichem Erfolg Hypothesen iiber die Griinde fur Erfolg oder 
MiBerfolg aufstellen zu konnen. 

(c) Statt ein solches pragmatisch induktives Vorgehen zu wahlen, bei dem man - 
wohl im wesentlichen mit Erfolg rechnend - ausprobiert und notigenfalls im nachhin- 
ein differenzierende Hypothesen aufstellt, kann man auch hier von vornherein vor- 
sichtiger sein und starker grundlagenorientiert vorgehen. Man wird dann zunachst im 
hypothesengeleiteten deduktiven Verfahren nach den fur den Erfolg entscheidenden 
Bedingungen suchen. Das betrifft sowohl die Komponenten des Programms, die dann 
in entsprechenden Kontrollgruppen-Planen systematisch variiert werden, als auch die 
Frage, von welchen Eigenschaften der Teilnehmer der Programmerfolg abhangt. Auch 
diese Fragen bediirfen, wie schon die Schatzung des Programmeffekts, sorgfaltiger 
methodischer Planung. 

Welchen Weg Evaluationsforschung geht, hangt nicht zuletzt von den Vorgaben des 
Auftraggebers ab. Der Auftraggeber kann sich mit einer tiberwiegend deskriptiv ge- 
haltenen Problemanalyse zufrieden geben, um seine weiteren Entscheidungen nach 
eigenem Ermessen zu treffen. Oder er kann primar am Ablauf einer von ihm finan- 
zierten MaBnahme interessiert sein, um zu erfahren, was mit seinem Geld geschehen 
ist. In solchen Fallen wird die mogliche Entwicklung der Fragestellung relativ friih 
abgebrochen, da der erteilte Auftrag erfullt ist. Wenn hingegen die Zielsetzung einen 
weiten Spielraum laBt (z.B. Forderung der Didaktik in den Naturwissenschaften) und 
der institutionelle Rahmen eine langerfristige Perspektive ermoglicht, ist eine starker 
grundlagenorientierte Forschung moglich, deren Ergebnisse dann in einem breiten 
Bereich anwendungsbezogen nutzbar gemacht werden konnen. Im folgenden sollen 
einige typische Probleme Padagogisch-psychologischer Evaluationsforschung an drei 
Beispielen erlautert werden. Dabei geht es als zentrale Frage zunachst um den Nach- 
weis eines Effekts, dann aber auch um die weitergehende Frage, wovon der Effekt 
abhangt. Beim ersten Beispiel handelt es sich um eine Fragestellung aus der Grund- 
lagenforschung, bei der experimentell gearbeitet werden kann. Bei den anderen bei- 
den Fragestellungen stehen Probleme der quasi-experimentellen Kontrolle im Vorder- 
grund. 



9.2.2 Beispiele 

Beispiel 1: Verbalisieren beim Problemlosen (Probleme im Umgang mit der Vortest- 
N achtest-D ifferenz) 

Wir nehmen an, jemand wolle untersuchen, ob Verbalisieren beim Problemlosen (“lau- 
tes Denken”) die Leistung bei Problemloseaufgaben verbessert. Dazu kann man einen 
einfachen experimentellen Versuchsplan verwenden: Die Versuchspersonen werden nach 
dem Zufall auf zwei Gruppen aufgeteilt, wovon die eine mit, die andere ohne Verbali- 
sieren wahrend des Problemlosens arbeitet. Der Mittelwertsunterschied zwischen den 
beiden Gruppen kann zur Schatzung des Effekts des Verbalisierens herangezogen und, 
z.B. mithilfe des t-Tests, auf Signifikanz gepriift werden. Soweit es sich also um den 
Nachweis des Effekts handelt, werfen Versuchsplan und Auswertung keine besonderen 
Probleme auf. 
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Wenn nun als erstes Ergebnis vorliegt, daB sich das Verbalisieren positiv auf das 
Problemlosen auswirkt, so schlieBen sich weitere Fragen an. Eine typische Art von 
Fragestellungen ist darauf gerichtet, zu untersuchen, von welchen Merkmalen des 
Probanden der Effekt einer padagogischen MaBnahme abhangt. Im vorliegenden Fall 
konnte man z. B. fragen, ob Kinder mit hoher versus niedriger Ausgangsleistung, 
hohem versus niedrigem IQ usw. mehr vom Verbalisieren profitieren. Diese Frage ist 
allerdings mit dem vorliegenden einfachen Versuchsplan nicht bearbeitbar: Durch den 
Vergleich von zwei unabhangigen Gruppen laBt sich zwar der durchschnittliche Be- 
handlungseffekt quantifizieren, es laBt sich aber nicht feststellen, ob sich das Verba- 
lisieren individuell unterschiedlich ausgewirkt hat und welche Versuchsperson sich 
durch das Verbalisieren um wieviel verbessert hat. Infolgedessen hat man auch keine 
Moglichkeit, den Verbalisierungsgewinn mit anderen Variablen, z.B. dem IQ, zu kor- 
relieren. 

Um die Frage beantworten zu konnen, welche Person wieviel vom Verbalisieren 
profitiert hat, liegt es nahe, folgenden Versuchsplan zu wahlen: Dieselben Versuchs- 
personen bearbeiten zwei Parallelformen eines Problemlosetests zuerst ohne, dann mit 
Verbalisierungsinstruktion. Man berechnet fiir jede Person die Differenz der beiden 
Testleistungen und korreliert diese Differenzen mit anderen Variablen (Ausgangslei- 
stung, IQ usw.). 

Ein solches Vorgehen mag zwar auf den ersten Blick einfach und zielfirhrend er- 
scheinen, enthalt aber methodische und inhaltliche Probleme, die im folgenden dis- 
kutiert werden sollen. Bei den ersten Punkten (Skalenprobleme, Reliabilitat der Dif- 
ferenz, MeBfehlerkorrelation zur ersten Messung) geht es um Fragen, die die 
Nachtest-Vortest-Differenz als MaB fiir individuelle Unterschiede in der Veranderung 
betreffen; danach geht es um die Frage, ob die Veranderung dem Behandlungseffekt 
(hier: Verbalisieren) gleichgesetzt werden kann. 

(a) Skalenprobleme: Die Zahl der gelosten Aufgaben in einem Problemlosetest kann 
kaum beanspruchen, eine fundierte Intervallskala zu sein. Ob die Skaleneinheiten in 
verschiedenen Skalenbereichen gleich groB sind, ob z.B. die Differenz zwischen 7 und 
9 Richtigen genauso groB ist wie zwischen 17 und 19, laBt sich nicht theoretisch be- 
griindet beantworten. Die Frage, ob Kinder mit hohem oder niedrigem IQ mehr vom 
Verbalisieren profitieren, lauft aber genau auf einen solchen Vergleich hinaus: Die 
Kinder mit niedrigem IQ haben vermutlich deutlich niedrigere Ausgangswerte als die 
mit hohem IQ, so daB der Vergleich des Zugewinns einen Vergleich von Differenzen 
in unterschiedlichen Skalenbereichen erfordert. 

In girnstigen Fallen, bei sehr drastischen Unterschieden im Zuwachs braucht das 
nicht problematisch zu werden: Ein giinstiger Fall lage z.B. vor, wenn die Gruppe mit 
den niedrigeren IQ im ersten Durchgang die niedrigere Ausgangsleistung hat, im 
zweiten Durchgang (mit Verbalisieren) aber dann die Gruppe mit hohen IQ iibertrifft. 
Ein solches Ergebnis bleibt bei monotonen Skalentransformationen (= beliebige 
Transformationen, bei denen die Reihenfolge der MeBwerte bestehen bleibt) erhal- 
ten. Die Aussage “Die Probanden mit niedrigeren IQ haben einen groBeren Zuwachs 
erzielt als die mit hohen IQ” kann hier gemacht werden, auch wenn der Problemlose- 
test nur Rangskalenniveau hat. 

Als nachsten, immer noch girnstigen Fall nehmen wir an, die Gruppe mit niedri- 
gen IQ hatte bei Verbalisierungsinstruktion die Gruppe mit hohen IQ zwar nicht iiber- 
troffen, sich aber doch von 7 auf 15 Punkte gesteigert, wahrend die mit hohen IQ sich 
nur von 17 auf 18 verbessert hatte. Falls keine Deckeneffekte vorliegen (von “Dek- 
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keneffekten” spricht man, wenn ein Test nicht genug schwierige Aufgaben enthalt, so 
daB die besseren Probanden an die maximal erreichbare Punktzahl als “Decke” an- 
stoBen; bei einem anders zusammengesetzten Test hatten sie noch weitere, schwieri- 
gere Aufgaben losen und damit mehr Punkte erreichen konnen), wird wohl kaum je- 
mand zogern zu sagen, die Gruppe mit niedrigen IQ hatte mehr dazugewonnen als die 
mit hohen IQ - ungeachtet dessen, daB diese Aussage meBtheoretisch gesehen nicht 
zwingend ist. Was aber, wenn die untere Gruppe einen Anstieg von 7 auf 12 zeigt 
(Differenz 5 Punkte), die obere von 17 auf 20 (Differenz 3 Punkte)? Hier kann der 
Ubergang zu einer anderen Skala (z.B. Rangplatzen und darauf aufbauend Rangplatz- 
differenzen; Ubergang von der Rohwertskala zu den geschatzten Personparametern 
eines probabilistischen Testmodells) zu einer Umkehr der Interpretation fiihren, in- 
dent einmal flir die eine, einmal fur die andere Gruppe die Differenz numerisch gro- 
Ber ist. Wenn das der Fall ist, sollte man sich damit begniigen, darzustellen, wie sich 
die einzelnen Gruppen verbessert haben, aber auf einen numerischen Vergleich der 
Zuwachse verzichten. 

Statt die Kinder nach der Intelligenz in nur zwei Klassen zu teilen (hoher/niedri- 
ger IQ) und den Mittelwertsunterschied zwischen den beiden Gruppen zu betrachten, 
kann man auch einfach die Korrelation zwischen dem IQ und dem DifferenzmaB be- 
rechnen. Auch das beantwortet die Frage, ob zwischen dem IQ und dem Zugewinn 
ein Zusammenhang besteht. Was das Skalenniveau anbelangt, gilt dasselbe, was oben 
im Zusammenhang mit dem Gruppenvergleich angefiihrt wurde: Wenn Differenzen 
(X 2 - mit anderen Variablen (Y) korreliert werden, so sind die Intervalleigenschaf- 
ten von X kritisch. Eine monotone Skalentransformation von X, die z.B. die Interval- 
le im unteren Bereich dehnt und im oberen Bereich staucht (oder umgekehrt), kann 
die Korrelation entscheidend verandern. Um das festzustellen, kann man plausible 
Skalentransformationen (siehe oben) probeweise durchfiihren. Wenn das Ergebnis 
stark variiert, muB man entweder inhaltlich begriinden konnen, warum eine Skala ge- 
geniiber den anderen vorzuziehen ist, oder aber auf eine Interpretation der Korrelati- 
on verzichten. 

(b) Rel iabilitat: Die Reliabilitat einer Differenz (X 2 - X,) ist meist erheblich niedriger 
als die Reliabilitat von X! oder X 2 je fur sich genommen. Das soli im folgenden naher 
begriindet werden: Die Varianz einer Differenz besteht aus der wahren Varianz der Dif- 
ferenzen und der Fehlervarianz der Differenzen: 

a 2 (Xi - Xi ) = a 2 (T 2 - T.) + a 2 (F 2 - F,), 

Die Reliabilitat der Differenz ist der Anted, den die wahre Varianz an der beobachteten 
Varianz ausmacht: 



Rel (X: - X, ) = 



o 2 (T 2 - T,) 
a 2 (X 2 - X,) 



Wie im folgenden gezeigt wird, hangt dieser Anted wesentlich von der Korrelation 
zwischen erster und zweiter Messung ab: GemaB einem allgemeinen Lehrsatz des Sta- 
tistik ergibt sich die Varianz einer Differenz von zwei Zufallsvariablen als Summe der 
Varianzen minus zwei mal der Kovarianz. Wendet man diesen Satz auf die Differenz 
der MeBfehler an, so erhalt man 



[9,2] & (F 2 - Fi ) = o 2 (F 2 ) + a 2 (F.) - 2Cov (F.F 2 ) = a 2 (F 2 ) + a 2 (F.) - 0 , 
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d.h. die Fehlervarianzen addieren sich (die Kovarianz der MeBfehler ist gemaB den 
Axiomen Null). Dagegen ist bei den wahren Werten die Kovarianz in der Regel nicht 
gleich Null und von der Summe der Varianzen ist ein entsprechender Betrag abzuzie- 
hen: 

[9.3] a 2 (T: - T, ) = a 2 (Ti) + o 2 (T,) - 2Cov (T, T:) 

Gewohnlich korrelieren erste und zweite Messung positiv, so daB die Kovarianz posi- 
tiv ist. Je hoher die Korrelation zwischen erster und zweiter Messung, desto groBer die 
abzuziehende Kovarianz, desto kleiner also die wahre Varianz und damit die Reliabili- 
tat der Differenzen. Wenn z.B. bei gleicher Varianz von Vortest und Nachtest jede der 
beiden Messungen eine Reliabilitat von 0.90 hat und Vortest und Nachtest zu .70 kor- 
relieren, ist die Reliabilitat der Differenz nur .67, bei einer Vortest-Nachtest-Korrelati- 
on von .80 sogar nur .50. 

Die niedrige Reliabilitat des DifferenzmaBes fiihrt dazu, daB Korrelationen dent Betrag 
nach niedrig ausfallen, selbst dann, wenn zwischen dem meBfehlerfrei gemessenen 
Zuwachs und dem IQ ein enger Zusammenhang besteht. Dieses Problem ist insofem 
nicht von grundsatzlicher Bedeutung, als bei bekannter Reliabilitat mit Hilfe der Min- 
derungskorrektur (siehe Kapitel 2.2) auch die Korrelation mit den wahren Differenzen 
berechnet werden kann. Diese meBfehlerbereinigte Korrelation ist allerdings nur von 
Interesse, wenn es, wie im vorliegenden Beispiel, um theoretische Fragen geht. Wenn 
es dagegen um praktische diagnostische Anwendungen geht (wie z.B. bei Lerntests in 
ihrer urspriinglichen Konzeption), so interessiert die Kriteriumskorrelation der beob- 
achteten Differenzen, denn nur diese stehen fur die Prognose zu Verfiigung. 

Reliabilitat ist eines der Hauptgutekriterien der klassischen Testtheorie. Das legt ein 
MiBverstandnis nahe: Wenn Differenzen nur eine geringe oder vielleicht gar keine Re- 
liabilitat haben, so konnte man meinen, sie seien deshalb nicht geeignet, Veranderun- 
gen zu erfassen, inbesondere also auch nicht als MaB fur den durchschnittlichen Zu- 
wachs einer Gruppe (etwa im Vergleich zu einer Kontrollgruppe) verwendbar. DaB das 
ein MiBverstandnis ware, soli im folgenden erlautert werden: 

Eine niedrige Reliabilitat der Differenzen bedeutet, daB ein groBer Teil der Varianz 
der Differenzen auf MeBfehler zuruckgeht. Sie besagt aber nichts liber den Mittelwert 
der Differenzen, also den durchschnittlichen Zuwachs, und die Genauigkeit, mit der 
er erhoben werden kann. Das wird besonders deutlich, wenn man einen Extremfall 
betrachtet: Wenn alle Probanden genau den gleichen Zuwachs im wahren Wert haben, 
so ist die Varianz des wahren Zuwachses Null. Folglich ist die Reliabilitat der Diffe- 
renz, definiert als Anteil der wahren Varianz an der beobachteten Varianz, gleich Null, 
und die gesamte Varianz der Differenzen ist nur auf MeBfehler zuruckzufiihren. Trotz- 
dem kann der durchschnittliche Zuwachs als Mittelwertsdifferenz zwischen erster und 
zweiter Messung berechnet und zur Schatzung des durchschnittlichen (hier zugleich 
fur jeden einzelnen Probanden giiltigen) wahren Zuwachses verwendet werden. Die- 
se Schatzung weist sogar eine besonders gute Genauigkeit auf, wie man am Konfi- 
denzintervall sehen kann. Das Konfidenzintervall fur P - (12 lautet bei a = .05: 

[ 9 . 4 ] (X. -X 2 )± 1.96a (X 2 -X, ) '/vTiT 

n = Stichprobenumfang 

Es wird umso kleiner, je kleiner die Varianz der Differenzen ist; am kleinsten also, wenn 
die wahre Varianz der Differenzen Null ist, so daB die beobachtete Varianz der Diffe- 
renz nur noch aus der Fehlervarianz besteht. 
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Dieses formale Ergebnis, wonach bei einer Reliabilitat der Differenzen von Null der 
durchschnittliche Zuwachs besonders genau geschatzt wird, mag zunachst paradox er- 
scheinen, laBt sich aber bei naherem Hinsehen auch inhaltlich gut verstehen: Wenn alle 
Personen genau den gleichen wahren Zuwachs haben, ist es egal, welche Personen ge- 
messen werden. Im Prinzip wiirde eine Person stellvertretend fur alle geniigen. Die Un- 
genauigkeit in der Aussage liber den Zuwachs kommt nur durch MeBfehler, nicht durch 
die Auswahl der Personen zustande. Wenn dagegen der wahre Zuwachs individuell un- 
terschiedlich ist, hangt die Schatzung des durchschnittlichen Zuwachses auch von der 
zufalligen Auswahl der Personen ab, die Schatzung wird also ungenauer ausfallen. Nur 
in diesem zweiten Fall, wenn also individuelle Unterschiede im Zuwachs vorliegen, ist 
die Reliabilitat der Differenzen groBer als Null, und es macht einen Sinn zu fragen, womit 
diese individuellen Unterschiede zusammenhangen. 

Entsprechendes gilt, wenn der Zuwachs von zwei Gruppen, z.B. einer Experimen- 
talgruppe und einer Kontrollgmppe, verglichen werden soil. Wenn innerhalb jeder Gruppe 
keine individuellen Unterschiede im wahren Zuwachs bestehen (z.B. in der Experimen- 
talgruppe alle um denselben Betrag zunehmen; in der Kontrollgmppe bei keiner Per- 
son ein Zuwachs auftritt), ist innerhalb jeder Gruppe die Reliabilitat der Differenzen 
Null. Trotzdem kann fur jede Gruppe der Mittelwert der Differenz als Schatzung des 
Zuwachses berechnet und die beiden Gruppen verglichen werden. Lediglich die Fra- 
ge, womit individuelle Unterschiede im Zuwachs zusammenhangen, gibt auch hier keinen 
Sinn. 

(c) Negative Korrelation zur ersten Messung: Wenn untersucht wird, von welchen 
Merkmalen der Person der Zuwachs abhangt, wird gewohnlich auch die Frage gestellt, 
ob der Zuwachs mit den Ausgangswerten korreliert. Es liegt nahe, diese Frage zu be- 
antworten, indem man die Korrelation zwischen Differenz und erster Messung, also 
r (X b X 2 - X i ) berechnet. Dabei tritt allerdings ein Artefakt auf, das durch MeBfehler 
in X t bedingt ist. Dieses Artefakt erkennt man, wenn man die beiden MaBe X[ und X 2 - X t 
jeweils in wahren Wert und MeBfehler zerlegt: 

X, =T, +Fi 

X 2 - Xi = T 2 - Ti + F 2 - Fi 

Man sieht, daB in beide MaBe der MeBfehler von Xi eingeht, und zwar mit entgegen 
gesetztem Vorzeichen. Die Kovarianz von X! mit X 2 -X! ist also 

[9.5] Cov [Xi ,(Xi -Xi )] = Cov [(T. +Fi ),(T 2 -T, -hF^-Fi )] 



= CovfTi ,(Ta -T, )] - Var(Fi ). 

Selbst wenn Ausgangswerte und Zuwachs, meBfehlerfrei gemessen, unabhangig sind, 
also CovlTj ,(T 2 -T, )] = 0 gilt, tritt bei den beobachteten Werten eine negative Kova- 
rianz und damit eine negative Korrelation zwischen Ausgangswerten und Zuwachs auf. 

Das Problem ist allerdings insofern nicht von grundsatzlicher Bedeutung, als bei 
bekannter Reliabilitat von Xi Korrekturformeln zur Verfiigung stehen, mit denen fur 
die negative Kovarianz durch MeBfehler in Xi korrigiert werden kann (Harris, 1963). 

Die Frage nach der Korrelation zwischen Ausgangswerten und Zuwachs hat nur 
Sinn, wenn erste und zweite Messung auf derselben Skala (z.B. einer Rohpunktska- 
la) erfolgen. Die Varianz der zweiten Messung kann dann groBer, kleiner oder gleich 
groB sein wie die der ersten Messung: 

Bezeichnet man den Zuwachs mit Z, also: 
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Z = X 2 - x , , 



so erhalt man 



X 2 = X| + z, 

und fur die Varianz der zweiten Messung: 

[9,6 a 2 (X 2 ) = a 2 (x : ) + a 2 (Z) + 2Cov(X 1 Z). 

Sind z.B. Ausgangswert und Zuwachs unabhangig, so ist die Varianz von X 2 um die Varianz 
des Zuwachses groBer als die Varianz von X,. 

Werden hingegen erste und zweite Messung nicht auf derselben Skala gemessen, son- 
dem jeweils fur sich standardisiert (wie z.B. der IQ auf jeder einzelnen Altersstufe), so 
verliert die Frage nach der Korrelation zwischen Ausgangswert und Zuwachs ihren Sinn. 
Aus der Formel [9.6] sieht man, daB C 2 (X,) = Ct 2 (X 2 ) nur gelten kann, wenn die Ko- 
varianz zwischen Ausgangswert und Zuwachs negativ ist (oder wenn die Varianz des 
Zuwachses Null ist). Deshalb ist z.B. die Korrelation des IQ mit 6 Jahren (Messung xi) 
mit der IQ-Anderung von 6 nach 8 Jahren (Z = X 2 - X,) als Folge der altersspezifi- 
schen Standardisierung in einer reprasentativen Stichprobe zwangslaufig negativ, wo- 
bei sich der Betrag der Korrelation allein aus der Kenntnis der Korrelation der IQ zu 
den beiden Zeitpunkten frfX , X 2 )) errechnen laBt (eine Formel dazu findet man bei 
Stelzl, 1982, S.214; eine inhaltliche Diskussion zur Frage der Korrelation zwischen Aus- 
gangswert und Zuwachs bei der Entwicklung der Intelligent findet man bei Merz & 
Stelzl, 1973). 

(d) Die Abgrenzung des Behandlungseffekts gegen andere Veranderungen und der 
Residualgewinn als Alternative zum DifferenzmalS: Bisher wurde das DifferenzmaB als 
MaB zur Erfassung von Veranderungen diskutiert. Dabei wurde noch offen gelassen, 
wodurch die Veranderung herbeigefuhrt wurde. Gerade bei dem Beispiel “Effekt des 
Verbalisierens auf das Problem Ibsen’' ware bei zweimaliger Testung derselben Perso- 
nen (erst ohne, dann mit Verbalisieren) auch an Effekte der Gewohnung an die Testsi- 
tuation und an Ubungseffekte zu denken. Es ist auch nicht unplausibel, anzunehmen, 
daB dieser Gewinn durch Gewohnung und Ubung individuell unterschiedlich ist und 
mit dem IQ korreliert. In der Nachtest-Vortest-Differenz sind diese Effekte mit den Ver- 
balisierungseffekten vermengt, so daB ohne Hinzunahme weiterer Information keine 
klare Interpretation moglich ist. 

Das Problem, daB die Veranderung auf eine Vielzahl moglicher Ursachen zuriickge- 
hen kann, ist fur einfache Vorher-Nachher-Versuchsplane typisch und wird auch am fol- 
genden Beispiel (Fruhforderung der kognitiven Entwicklung) illustriert. Ein groBer Teil 
der Probleme kann in der Regel gelost werden, wenn man eine geeignete Kontrollgruppe 
zur Verfugung hat. 

Sind Versuchsgruppe und Kontrollgruppe nach dem Zufall gebildet, so kann man 
die Versuchsgruppe erst ohne, dann mit Verbalisieren, die Kontrollgruppe beide Male 
ohne Verbalisieren arbeiten lassen. Die naheliegendste Auswertung besteht darin, den 
durchschnittlichen Zuwachs (Nachtest-Vortest-Differenz) fur beide Gruppen zu verglei- 
chen. Hat die Versuchsgruppe einen groBeren Zuwachs erzielt als die Kontrollgruppe, 
so kann das dem Verbalisieren zugeschrieben werden. Man kann in AnschluB an dieses 
Ergebnis die Gesamtgruppe unterteilen (z.B. Personen mit niedrigem versus hohem IQ) 
und fur die beiden Teilgruppen die Zuwachse in Versuchsgruppe und Kontrollgruppe 
vergleichen. Die Kontrollgruppe dient in jedem Fall dazu, Veranderungen, die auf das 
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Verbalisieren zuriickzufuhren sind, gegen Veranderungen abzugrenzen, die auf bloBe 
Testwiederholung zuriickgehen. 

Die Daten der Kontrollgruppe konnen aber auch anders verwendet werden: Man kann 
daraus eine Regressionsgleichung berechnen, mit der die Testwerte bei der zweiten Test- 
durchfiihrung (ohne Verbalisieren) aus den Testwerten der ersten Testdurchfuhrung 
geschatzt werden. Diese Regressionsgleichung wird dann in der Versuchsgruppe ver- 
wendet, um fur jede Person aufgrund ihrer ersten Testleistung zu schatzen, welchen Wert 
sie bei der zweiten Testdurchfuhrung ohne Verbalisieren erzielt hatte. Die Abweichung 
ihres in der Verbalisierangsbedingung tatsachlich erreichten Testwertes von diesem Schatz- 
wert, der sogenannte Resi dual gew inn, wird dann als MaB fiir den Verbalisierungsge- 
winn herangezogen. Man kann dann zum einen fragen, ob der durchschnittliche Resi- 
dualgewinn groBer als Null ist; man kann weiter fragen, mit welchen Eigenschaften der 
Person er zusammenhangt, ob z.B. Personen mit hohem IQ im Durchschnitt einen ho- 
heren Residualgewinn aufweisen als Personen mit niedrigem IQ. 

Der Hauptvorteil einer solchen Auswertung liegt darin, daB fur erste und zweite Messung 
keine Paralleltests zur Verfiigung zu stehen brauchen. Eine Regressionsschatzung ver- 
langt nicht, daB die Skaleneinheiten der beiden Messungen irgendwie vergleichbar sein 
miiBten (aus der KorpergroBe in Zentimetem kann das Gewicht in Kilogramm geschatzt 
werden). Da exakte Parallelitat von Testformen schwer zu erreichen ist, ist es immer 
ein Vorteil, wenn man auf eine solche Voraussetzung verzichten kann. Dafiir nimmt man 
Unsicherheiten in Kauf, die mit der Schatzung der Regressionsgleichung verbunden sind. 
Bei einem kleinen Stichprobenumfang in der Kontrollgruppe kann diese Unsicherheit 
betrachtlich sein. Welche Auswertungsart vorzuziehen ist, bleibt im Einzelfall zu ent- 
scheiden. 

Beispiel 2: Friihforderung der kognitiven Entwicklung (Regressionseffekte, Probleme 
qua si -experiments I er Kontrolle) 

Wie in 9.2.1 herausgestellt wurde, sind die Kernfragen der Evaluationsforschung (1) 
ob ein Behandlungseffekt nachweisbar ist und (2) wovon dieser Effekt abhangt. Im 
vorangehenden Beispiel war die erste Frage experimentell entscheidbar. Erst die zwei- 
te Frage, bei der es um individuelle Unterschiede im Behandlungseffekt ging, warf 
methodische Probleme auf (MaB fiir die individuelle Veranderung, Abgrenzung des 
Behandlungseffekts gegen andere Veranderungen). 

Haufig sind allerdings in der Evaluationsforschung aufgrund praktischer Gegeben- 
heiten experimentelle Bedingungen iiberhaupt nicht herstellbar, so daB auch die erste 
Frage (Nachweis und Quantifizierung des Behandlungseffekts) nicht mit einfachen ex- 
perimentellen Versuchsplanen zu losen ist. Stattdessen miissen dann quasi-experimen- 
telle Anordnungen und Methoden der Feldforschung herangezogen werden. Auf typi- 
sche Probleme, die dabei auftreten, haben Campbell & Stanley (1963) in einem viel 
beachteten Aufsatz hingewiesen. Eine umfassendere Darstellung findet man u.a. bei Cook 
& Campbell (1979), eine ausfuhrliche methodische Diskussion detailliert dargestellter 
Forschungsprojekte u.a. bei Cronbach (1983). Im folgenden sollen anhand von zwei Bei- 
spielen typische Probleme nicht-experimenteller Forschung diskutiert werden. Bei dem 
zunachst dargestellten Beispiel, das einer experimentellen Fragestellung noch relativ 
nahe kommt, wird vor allem auf Unzulanglichkeiten eines einfachen Vorher-Nachher- 
Versuchsplans und die Notwendigkeit einer Kontrollgruppe hingewiesen. Dabei wird 
der Regressionseffekt ausfuhrlicher behandelt, da er als Fehlerquelle bei der Interpre- 
tation von Vorher-Nachher-Planen oft nicht leicht zu durchschauen ist. 
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Wir nehmen an, ein sich iiber mehrere Monate erstreckendes kognitives Trainings- 
programm fur Vorschulkinder aus sozial stark benachteiligten Stadtteilen sollte erprobt 
werden (Kurzbeschreibungen realer Projekte dieser Art findet man bei Bronfenbrenner, 
1974; ausflihrlichere Darstellungen u.a. bei Zigler & Valentine, 1979). Die Hauptfrage- 
stellung des Projekts ware: Um wieviel haben sich die Kinder durch das Forderungs- 
programm verbessert? Daran konnten sich (analog zum Beispiel “Verbalisieren beim 
Problemlosen”) als weitere Fragen anschlieBen: Welche Kinder haben aus dem Programm 
am meisten Nutzen gezogen? Welche Komponenten des Programms sind fur den Er- 
folg entscheidend? 

Unzulanglichkeiten eines Vorher-Nachher-Versuchsplans: Die Beantwortung zumindest 
der Hauptfragestellung (durchschnittlicher Effekt des Programms) mag zunachst ein- 
fach erscheinen: Man wahlt bediirftige Kinder fiir das Projekt aus, fuhrt zu Beginn des 
Projekts eine Eingangsmessung (Breitband-Diagnostikum kognitiver Fahigkeiten) und 
nach Ende des Programms eine zweite Messung durch. Der Erfolg des Programms sollte 
sich am Unterschied der beiden Messungen (Mittelwertsdifferenz zwischen Vortest und 
Nachtest) zeigen. 

So einfach dieser Versuchsplan auch aussieht, so fuhrt er in der Regel doch nicht zu 
schlitssigen Ergebnissen. Wie schon am Beispiel “Verbalisieren beim Problemlosen” 
ausgefuhrt, enthalt die Vortest-Nachtest-Differenz nicht nur die Effekte des Programms, 
sondern auch andere Komponenten. Da waren einmal triviale Effekte der Testwieder- 
holung (bei den meisten Intelligenztests sind Ubungsgewinne auch nach einem lange- 
ren Zeitraum noch nachweisbar), der Vertrautheit mit dem Versuchsleiter, der Testsi- 
tuation usw. Wenn zu den beiden Zeitpunkten verschiedene Tests verwendet werden, konnen 
unterschiedliche Verzerrungen in den Eichdaten der beiden Tests dieselbe Probanden- 
gruppe einmal etwas gtinstiger, einmal etwas schlechter abschneiden lassen (Problem 
der skalenmaBigen Vergleichbarkeit von erster und zweiter Messung). 

Ein methodisches Artefakt, das weniger leicht zu erkennen ist, ist der Regressions- 
effekt aufgrund einer Selektion nach der ersten Messung. Wie es zu einem Regressionseffekt 
kommt, laBt sich an einem vereinfachten Beispiel deutlich machen. Dazu nehmen wir 
an, in einem Stadtteil betrage ohne Einfiihrung eines Forderungsprogramms der Durch- 
schnitts-IQ der Kinder mit 4 Jahren 90 und derselben Kinder mit 5 Jahren wieder 90. 
Die bivariate Verteilung der IQ zu den beiden MeBzeitpunkten moge so aussehen, wie 
in Tabelle 9.1 angegeben. 



Tabelle 9.1: Bivariate Haufigkeitsverteilung der IQ mit 4 lahren und mit 5 lahren in einem so- 
zial benachteiligten Stadtteil (fingierte Daten) 

IQ mit 4 Jahren 
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In Tabelle 9.1 sieht man, daB die Verteilung der IQ mit 4 Jahren und 5 Jahren gleich ist, 
zwischen den beiden MeBzeitpunkten besteht eine mittlere Korrelation von r = 0.5 (dieser 
Wert erscheint angesichts der Varianzeinschrankung als nicht unrealistisch). 

Was hat man nun zu erwarten, wenn man unter den Vierjahrigen alle Probanden aus- 
wahlt, die einen IQ von 75 haben, und sie als Fiinfjahrige wieder untersucht? Greift man 
aus Tabelle 9.1 die entsprechende Zeile heraus und berechnet den Durchschnitt der IQ 
mit 5 Jahren, so findet man einen Mittelwert von 82.5. Geht man mit den anderen Zeilen 
aus Tabelle 9.1 entsprechend vor, so findet man, daB die Kinder, die mit 4 Jahren einen 
IQ von 80 hatten, im Durchschnitt mit 5 Jahren einen Wert von 85 haben, usw. (siehe 
Tabelle 9.2). 

Tabelle 9.2: Regression der IQ mit 5 Jahren auf die IQ mit 4 Jahren, berechnet aus Tabelle 9.1 

Durchschnittlicher IQ 
IQ mit 4 Jahren mit 5 Jahren 

105 97.7 

100 .95.0 

95 .92.5 

9 0 90.0 

85 87.5 

80 .85.0 

75 82.5 

Aus Tabelle 9.2 sieht man: Wenn man Kinder herausgreift, die mit 4 Jahren unter dem 
Mittelwert lagen, hat man mit 5 Jahren etwas hohere Werte zu erwarten, wohingegen 
man bei Kindem, die mit 4 Jahren iiber dem Mittelwert lagen, mit 5 Jahren im Durch- 
schnitt etwas niedrigere Werte erhalt. Dieser Effekt, den man Regressionseffekt nennt 
(eine ausfiihrlichere Diskussion von Regressionseffekten findet man bei Stelzl, 1982, 
Kapitel 6), entspricht in etwas anderer Darstellung der Aussage, daB bei gleicher Ver- 
teilung der Vor- und Nachtestwerte die Nachtest-Vortest-Differenz (X 2 - X,) negativ 
mit den Ausgangswerten korreliert. Der Regressionseffekt kann leicht mit Wirkungen 
des Forderungsprogramms verwechselt werden: Fur das Programm werden gewohn- 
lich die Kinder mit besonders niedrigen Ausgangswerten als die Bediirftigsten ausge- 
wahlt. Eine solche Selektion laBt aber, wie gezeigt, auch ohne Behandlung ein Anstei- 
gen der Werte erwarten. Der Erfolg der FordermaBnahme muB also gegen diesen 
Regressionseffekt abgegrenzt werden. 

Probleme bei der Zusammenstellung einer Kontrollgruppe: Aus den genannten Griin- 
den, die zeigen, daB die Vortest-Nachtest-Differenz auch bei diesem Beispiel zur Schatzung 
des Programmeffekts wenig geeignet ist, erscheint es geboten, eine nicht behandelte 
Kontrollgruppe in den Versuchsplan mit einzubeziehen, um den Erfolg des Programms 
relativ zu dieser Kontrollgruppe beurteilen zu konnen (vgl. Beispiel 1). Da aber bei einem 
solchen Projekt neben den Zielsetzungen der Forschung vor allem soziale Gesichtspunkte 
zu beriicksichtigen sind, konnen Versuchsgruppe und Kontrollgruppe nicht nach dem 
Zufall gebildet werden, wie es unter dem Gesichtspunkt der experimentellen Stringenz 
wiinschenswert ware. Man kann aber z.B. versuchen, in einem anderen Stadtteil Kin- 
der zu finden, die den Projektkindem in den Ausgangswerten moglichst gut entspre- 
chen, und diese Gruppe nach einem entsprechenden Zeitraum ebenfalls nachuntersu- 
chen. Mit einer aus einem anderen Stadtteil zusammengestellten Kontrollgruppe sind 
allerdings systematische Unterschiede zur Projektgruppe in der Ausgangslage und be- 
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ziiglich der ohne Behandlung zu erwartenden weiteren Entwicklung nicht ganz auszu- 
schlieBen: Eine Parallelisierung ist immer nur nach einer begrenzten Anzahl von Va- 
riablen moglich, und wenn sich die beiden Stadtteile hinsichtlich der sozialen Struktur 
stark unterscheiden, so ist zu erwarten, daB in einer ganzen Reihe von weiteren V aria- 
blen Restunterschiede zwischen Projektkindem und Kontrollkindern bestehen. Wenn 
ferner die Verteilung der IQ in den beiden Stadtteilen einen verschiedenen Mittelwert 
hat, so ist nach einer Selektion zum Zwecke der Parallelisierung mit unterschiedlichen 
Regressionseffekten zu rechnen (ein Argument, das im Zusammenhang mit der Evaluation 
von Programmen zur kornpensatorischen Erziehung vor allem von Campbell & Erle- 
bacher (1975) ins Spiel gebracht wurde). 

Trotz solcher Einwande ist jedoch keinesfalls zu iibersehen, daB eine sorgfaltig zu- 
sammengestellte Kontrollgruppe eine wesentliche Verbesserung des Versuchsplans dar- 
stellt: Effekte der Testwiederholung, von Verzerrungen in den Testnormen usw. sind kon- 
trolliert. Regressionseffekte sind zwar nicht genau gleich gehalten, aber doch der Richtung 
und GroBenordnung nach in etwa kontrolliert. Dasselbe gilt fur allgemeine sozialpoli- 
tische Entwicklungen (sofem man nicht gerade das Pech hat, daB im fraglichen Zeit- 
raum in nur einem der beiden Stadtteile ein besonderes sozialpolitisches Ereignis ein- 
tritt). Eine quasi-experimentelle Untersuchung mit einer gut gewahlten Kontrollgruppe 
kann sicherlich genauso iiberzeugen wie eine experimentelle Priifung - vorausgesetzt, 
die Effekte sind groB genug, daB man sich um ein oder zwei Punkte Unterschied durch 
ungleiche Regressionseffekte oder durch nicht perfekt kontrollierte Ausgangslage nicht 
zu streiten braucht. 

Beispiel 3: Vergleich der Effekti vitat von Sonderschule und Regelschule bei lei stungs- 
schwachen Schulern (Probleme quasi-experimenteller Kontrolle) 

Noch schwieriger als beim vorangehenden Beispiel, wo experimentelle Bedingungen 
doch zumindest naherungsweise realisiert werden konnen, ist die Situation dort, wo nur 
Feldforschung moglich ist. Wenn man z.B. untersuchen will, ob sich Kinder im IQ-Bereich 
von 80-90 an der Sonderschule oder an der Regelschule besser weiterentwickeln, so ist 
es nattirlich ausgeschlossen, eine fur die Betroffenen so schwerwiegende Entscheidung 
zu Forschungszwecken zu manipulieren. Damit bleibt nur die Moglichkeit, Paare von 
Kindern herauszusuchen, bei denen ahnliche Ausgangsbedingungen bestanden haben, 
wobei aber nur eines der beiden Kinder an die Sonderschule iiberwiesen wurde, wah- 
rend das andere an der Regelschule verblieb. Im folgenden sollen fur diese Forschungs- 
situation typische Probleme dargestellt werden. Auch hier soil deutlich werden, daB nicht 
unmittelbar augenfallige Fehlerquellen die Interpretation gefahrden konnen, sofern man 
sie nicht zumindest der GroBenordnung nach abschatzen und entsprechend in Rechnung 
stellen kann. 

Probleme der Parallelisierung: Will man Paare von Kindern (jeweils ein Kind aus der 
Sonderschule, eines aus der Regelschule) zusammenstellen, bei denen gleiche Ausgangs- 
lage besteht, so wird man als Parallelisierungsmerkmale wohl in erster Linie das bis 
zum Zeitpunkt der Uberweisung aufgetretene AusmaB an Schulversagen und den IQ 
zu diesem Zeitpunkt heranziehen. Aber auch dann, wenn man eine Stichprobe von 
Sonderschiilern und Regelschiilem nach diesen Merkmalen parallelisiert hat und sie danach 
einige Jahre in ihrer weiteren Entwicklung beobachtet, kann man den Unterschied in 
der weiteren Entwicklung nicht ohne weiteres als Wirkung der Schule interpretieren. 
Die Parallelisierung ist zwar nach den vermutlich prognostisch wichtigsten Merkma- 
len (Schulversagen, IQ) erfolgt, trotzdem sind aber zwischen den Gruppen systemati- 




9.2 Methodische Probleme bei der Messung von Behandlungseffekten 



197 



sche Unterschiede zu erwarten: Wenn von zwei Kindern mit gleicher Intelligenz und 
gleichem AusmaB an Schulversagen das eine an die Sonderschule, das andere an die 
Regelschule geschickt wird, so kommen als Griinde dafiir nicht nur Zufalligkeiten des 
Entscheidungsprozesses und auBere Umstande in Betracht. Eine ganze Reihe von Ent- 
scheidungsgriinden (Meinung des Lehrers; Einstellung der Eltern zur Schule, ihre Be- 
reitschaft, Zusatzunterricht zu erteilen oder zu finanzieren; das AusmaB, in dem das Kind 
in der bisherigen Klasse integriert ist, usw.) ist denkbar, und jeder dieser Gesichtspunkte 
kann fiir die weitere Entwicklung tatsachlich von groBer prognostischer Relevanz sein. 
Vermutlich werden trotz der Parallelisierung die Ausgangsbedingungen und auBerschu- 
lischen Umstande bei den Sonderschiilern ungiinstiger sein. 

Probleme durch Selektionseffekte: Wenn man die Untersuchung nicht als Langsschnitt- 
studie durchfiihrt, was bekanntlich miihsam und langwierig ist, sondern retrospektiv, 
so hat man zusatzlich mit Selektionsproblemen zu kampfen: Sucht man namlich aus 
den jetzigen Regelschiilem diejenigen heraus, die z.B. vor zwei Jahren genauso schlechte 
Leistungen hatten wie andere, die vor zwei Jahren an die Sonderschule iiberwiesen wurden, 
so kann man dabei offensichtlich nur diejenigen erfassen, die in den letzten beiden Jahren 
nicht so weit abgefallen sind, daB sie doch noch an die Sonderschule iiberwiesen wor- 
den waren. Diejenigen, die man jetzt immer noch an der Regelschule vorfmdet, sind 
vermutlich beziiglich ihrer weiteren Entwicklung eine positive Selektion aus denen, die 
vor zwei Jahren trotz Schulversagens auf die Regelschule geschickt wurden. Bei den 
Sonderschiilern hat keine entsprechende Selektion stattgefunden. Sofern man nicht zeigen 
kann, daB die Selektion im fraglichen Zeitraum vemachlassigenswert gering war, wird 
man damit rechnen miissen, daB die Studie einen Bias zu Ungunsten der Sonderschiiler 
hat. 

Schwierigkeiten der beschriebenen Art, insbesonders Kontrollgruppen mit unglei- 
cher Ausgangslage, unvollstandige Parallelisierung und Selektionseffekte sind fiir Feld- 
studien charakteristisch. Das sollte aber kein Grund sein, dort wo Evaluationsforschung 
nur mit Hilfe von Feldstudien betrieben werden kann, die Flinte ins Korn zu werfen. 
Man muB vielmehr versuchen, die Fehlerquellen zu erkennen und in ihrer GroBenord- 
nung abzuschatzen. Bei der oben diskutierten Fragestellung z.B. wirken sich alle ge- 
nannten Fehlerquellen jeweils zuungunsten der Sonderschiiler aus. Sollten als Ergeb- 
nis der Untersuchung die Sonderschiiler besser abschneiden, so wird dieser Befund durch 
die genannten Storquellen nicht in Frage gestellt, sondem erscheint nur umso eindrucks- 
voller. Im Regelfall werden freilich Feldstudien zu Ergebnissen fuhren, deren Interpretation 
mit vielen Unsicherheiten belastet ist. In jedem Fall aber tragen sie dazu bei, die Dis- 
kussion um die Wirkung padagogischer MaBnahmen auf eine empirische Grundlage zu 
stellen. In giinstigen Fallen kann ihnen die gleiche Uberzeugungskraft zukommen wie 
Experimenten, so daB es in den Hauptfragestellungen zu einer abschlieBenden Entschei- 
dung kommt. 



9.2.3 Braucht man zur Evaluation Forschung? 

Bei Evaluationsforschung handelt es sich iiberwiegend um angewandte Forschung, 
bei der es darum geht, den Erfolg neu eingefiihrter MaBnahmen zu beurteilen. Das 
konnen soziale und padagogische MaBnahmen sein, wie die erwahnten Programme 
zur kompensatorischen Erziehung, aber auch medizinische MaBnahmen (z.B. eine 
Chemotherapie zusatzlich zur operativen Behandlung von Krebspatienten) oder auch 
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Anderungen der innerbetrieblichen Organisation (z.B. die Einfuhrung gleitender Ar- 
beitszeit). Im Vordergrund stehen Fragen der unmittelbaren Zielerreichung, der Vor- 
und Nachteile, Kosten und Nutzen der gesetzten MaBnahme. 

Nun wird Evaluation und darauf aufbauende Programm-Modifikation auch laufend 
im Alltag betrieben, ohne daB dabei andere Methoden als die der Alltagserfahrung 
zum Einsatz kommen: Ein Lehrer, der aus den im Unterricht gegebenen Schulerant- 
worten und den Losungsversuchen bei Hausaufgaben und Klassenarbeiten Schliisse 
auf den bislang erreichten Unterrichtserfolg zieht, um seinen weiteren Unterricht 
danach modifizierend zu gestalten, betreibt Evaluation ohne Einsatz wissenschaftli- 
cher Methodik. Wenn in einem Projekt zur Nachbetreuung straffalliger Jugendlicher 
von den damit beauftragten Padagogen ein jahrlicher Rechenschaftsbericht gefordert 
wird, so erwartet der Auftraggeber darin primar eine Beschreibung des Ablaufs der 
von ihm finanzierten MaBnahme. DaB dabei positive Gesichtspunkte und Erfolge in 
den Vordergrund gestellt werden, wird er nicht anders erwarten, und nicht als Mani- 
pulation betrachten. Freilich wird er auch ein Minimum an “harten” Daten erwarten, 
z.B. Angaben iiber die Zahl der betreuten Personen, Haufigkeit der Kontakte, Zahl der 
im Betreuungszeitraum riickfallig Gewordenen, usw. Ein solcher Rechenschaftsbe- 
richt, der auch Vorschlage zur Programm-Modifikation enthalten kann, wird haufig 
ausreichen, um dem Auftraggeber eine Entscheidung liber die Fortfiihrung zu ermog- 
lichen. 

Wenn somit einerseits auBer Zweifel steht, daB eine Beurteilung des Programm- 
erfolgs und eine darauf aufbauende Programm-Modifikation auch mit Mitteln des 
alltaglichen Erfahrungslernens moglich ist (ahnlich wie Menschenbeurteilung auch 
ohne wissenschaftliche Diagnostik moglich ist), so ist andererseits nicht zu iiberse- 
hen, daB dieser Weg zahlreiche Fehlerquellen enthalt, denen man durch Einsatz einer 
wissenschaftlich kontrollierten Methodik entgegenwirken kann. Schon wenn es dar- 
um ginge, das Programm zur Nachbetreuung straffalliger Jugendlicher in groBerem 
Umfang und mit erheblichem Kostenaufwand einzufiihren, wiirde man das wohl kaum 
allein aufgrund eines Rechenschaftsberichts tun wollen, der die positiven Schilderun- 
gen der fur das Projekt verantwortlichen Padagogen enthalt. Hier ist ein hoheres MaB 
an Sicherheit der Aussagen erforderlich, so daB offensichtliche Fehlerquellen kontrol- 
liert werden miissen, z.B. bewuBte und unbewuBte Verzerrungstendenzen der Bericht- 
erstatter. Man wird nicht nur nach dem Ablauf des Programms fragen, sondern an den 
Erfolg strengere MaBstabe anlegen, z.B. einen Vergleich beziiglich verschiedener 
Kriterien der sozialen Eingliederung mit und ohne Betreuungsprogramm fordem. 
Auch wenn dann der Erfolg des Programms im vorliegenden Fall hinreichend sicher- 
gestellt ist, wird man nach der Verallgemeinerbarkeit fragen: Das Programm soil ja 
von anderen Padagogen an anderen Orten iibemommen werden. Was also sind die 
kritischen Bestandteile, die fur den Erfolg ausschlaggebend waren (das Engagement 
der Padagogen? der laufende Kontakt? spezielle Programmbestandteile, wie z.B. ein 
Training sozialer Fertigkeiten? bestimmte Merkmale der betreuten Probanden?) - die- 
se Fragen sind aufgrund einer noch so gelungenen Projektschilderung nicht mit der 
Sicherheit zu beantworten, die notig ware, um eine groBangelegte und teure MaBnah- 
me einzuleiten. 

AuBer hohen Kosten konnen auch andere Grunde dafiir sprechen, eine erhohte Si- 
cherheit der Aussagen zu fordern: Wenn die MaBnahme nur gegen Widerstand durch- 
setzbar ist (z.B. Koedukation) oder die Betroffenen erheblich belastet (Chemothera- 
pie in der Medizin), so wird man sie nur dann durchfiihren wollen, wenn der Erfolg 




9.2 Methodische Probleme bei der Messung von Behandlungseffekten 



199 



bzw. die Wirksamkeit mit einiger Sicherheit nachgewiesen ist. In anderen Fallen ist 
der Einsatz von Forschung erforderlich, weil die Alltagserfahrung offensichtlich nicht 
ausreicht, um die anstehenden Fragen zu entscheiden: Etwa wenn aufgrund weltan- 
schaulicher oder politischer Befrachtetheit der Thematik mit stark verzerrter Infor- 
mationsverarbeitung zu rechnen ist, oder wenn sich aus anderen Griinden trotz eines 
langen Erfahrungszeitraums kein Konsens in der Beurteilung abzeichnet. In all die- 
sen Fallen ist sozialwissenschaftliche Evaluationsforschung mit vollem Einsatz ihrer 
methodischen Moglichkeiten, insbesondere ihrer diagnostischen Instrumente und ih- 
rer experimentellen und quasi-experimentellen Kontrolltechniken gefragt. 

In den letzten Jahren vertreten nun einige Autoren, insbesonders in den USA (z.B. 
Stake, 1975; Guba & Lincoln, 1982), die Ansicht, daB als Alternative zur wissen- 
schaftlichen (“scientific”) Evaluation ein “anderes Paradigma” der Evaluationsfor- 
schung treten miisse, das sie “Responsive Evaluation” nennen. Letztere ist durch den 
Einsatz “naturalistischer” Methoden gekennzeichnet. Die bevorzugte Methode beim 
naturalistischen Ansatz ist die teilnehmende Beobachtung, die freie Beschreibung 
unter Betonung qualitativer Gesichtspunkte bei wechselnder Thematik. Das Pro- 
gramm, das es zu evaluieren gilt, liegt nicht fest, sondem kann wahrend des Ablaufs 
modifiziert werden, u.a. auch auf Anraten des Evaluators als Experten (“invited in- 
terference”). Ein Bericht kann je nach Erfordemissen des Auftraggebers zu beliebi- 
gen Zeitpunkten gegeben werden. Er kann schriftlich oder mundlich erfolgen und 
orientiert sich am Informationsbediirfnis des Empfangers. Im Stil kann er sich eher 
an joumalistischen Darstellungen als Vorbildern orientieren als an Experimentalbe- 
richten. - Ahnliche methodische Tendenzen, insbesonders was die Abkehr von festen 
Untersuchungsplanen zugunsten einer Mitgestaltung aller am Programm Beteiligten 
an Ablauf und Evaluation der MaBnahme anlangt, findet man im deutschen Sprach- 
raum bei Vertretem der Aktions- und Handlungsforschung auf dem Hintergrund ih- 
res speziellen wissenschaftstheoretischen Konzepts (Naheres siehe z.B. Kordes, 
1984). 

Was hier als naturalistische Methode beschrieben wird, entspricht indes liber wei- 
te Strecken dem alltaglichen Erfahrungslernen, wobei allerdings bei der Person, die 
die Evaluation durchfiihrt, besondere Qualitaten vorausgesetzt werden; Sie soil alien 
Informationsquellen gegentiber offen und sensitiv sein und an keinen Plan gebunden 
das jeweils Richtige tun bzw. dem Auftraggeber die geeigneten MaBnahmen empfeh- 
len. Wie bereits im Zusammenhang mit der im Alltag standig stattfindenden Evalua- 
tion ausgefiihrt, gibt es viele Falle, in denen ein solches nicht regelgebundenes, “na- 
turalistisches”Vorgehen und eine zwanglose Form der Berichterstattung ihren Zweck 
erfiillen: z.B. wenn es um die Losung lokaler Probleme geht (etwa um eine Schulklas- 
se, in der es besondere Spannungen gibt), oder auch wenn es um die Entwicklung und 
erste Erprobung von Programmen geht. Es ware aber sicher naiv, anzunehmen, Sen- 
sibilitat und guter Wille wiirden geniigen, um Objektivitat und Validitat der Diagno- 
stic zu gewahrleisten und Behandlungseffekte von anderen Veranderungen (siehe 
oben: Unzulanglichkeiten des Vorher-Nachher-Versuchsplans) zu unterscheiden. So 
macht z.B. Wottawa (1981) eindrucksvoll deutlich, wie schwierig es ist, bei einem 
politisch umstrittenen Thema, wie dem Vergleich von Schulsystemen, manipulative 
Berichterstattung zu vermeiden. Nur der Einsatz hinsichtlich ihrer Giitekriterien iiber- 
priifter diagnostischer Instrumente und die weitestmogliche Offenlegung der Daten, 
die eine gegenseitige Kontrolle der Wissenschaftler ermoglicht, kann hier iiber den 
Meinungsstreit hinaus zu einem Erkenntnisfortschritt fiihren. “Naturalistischer” 
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Evaluation aber fehlt gerade das, was den spezifischen Beitrag der Wissenschaft aus- 
macht, namlich die kontrollierte Methodik. Deshalb kann sie auch nicht, wie das Guba 
& Lincoln (1982) beanspruchen, im Sinn eines “Paradigmenwechsels” die “klassi- 
sche” wissenschaftliche Evaluationsforschung ablosen. 

Das kann sicher nicht heiBen, daB nur Wissenschaftler die Welt verbessern konn- 
ten. Wenn es darum geht, in Problemsituationen Abhilfe zu schaffen, mogen andere 
Strategien (rasch wechselndes Ausprobieren, Propagieren von Losungsvorschlagen 
auch bei niedriger Sicherheit, Beeinflussung von Entscheidungstragern mit werbe- 
technischen Methoden usw.) erfolgreicher sein. Das sollte den Wissenschaftler aber 
nicht verleiten, den Wert, den seine Arbeit hat, und der auf Neutralitat, methodische 
Kontrolle und Nachpriifbarkeit gegriindet ist, gering zu achten und diese Qualitats- 
merkmale, die in seiner Methodik liegen, aufzugeben oder auch herunterzuspielen, 
um statt dessen nach den Publicity-Erfolgen der Journalisten zu schielen. 



Zusammenfassung 

Ziel padagogischer Evaluationsforschung ist es, wissenschaftlich fundierte Aussagen 
iiber die Wirkung von padagogischen MaBnahmen zu machen. Dabei treten zu den 
Fragen der Auswahl der Erhebungsinstrumente (Tests, Beurteilungen, Interviews 
usw.) auch Fragen der Versuchsplanung und Auswertung. Solche Fragen wurden an- 
hand von drei typischen Beispielen diskutiert. 

Bei der Diskussion des ersten Beispiels (Verbalisieren beim Problemlosen) wur- 
den folgende Probleme im Umgang mit Nachtest-Vortest-Differenzen behandelt: Das 
Problem des Skalenniveaus, das Reliabilitatsproblem, die negative MeBfehlerkorre- 
lation zwischen Ausgangswerten und Zuwachs, das Problem der Abgrenzung des Be- 
handlungseffekts gegen andere Veranderungen. 

Probleme quasi-experimenteller Kontrolle wurden an Beispiel 2 und 3 illustriert. 
An Beispiel 2 (Friihforderung der kognitiven Entwicklung) wurde nochmals auf die 
Unzulanglichkeit eines einfachen Vorher-Nachher-Versuchsplans hingewiesen, hier 
insbesonders in Hinblick auf unkontrollierte Regressionseffekte. Selbst wenn Ver- 
suchsgruppe und Kontrollgruppe aus praktischen Griinden nicht nach dem Zufall 
gebildet werden konnen, stellt eine sorgfaltig zusammengestellte Kontrollgruppe eine 
wesentliche Verbesserung des Versuchsplans dar. An Beispiel 3 (Vergleich der Effek- 
tivitat von Sonderschule und Regelschule bei leistungsschwachen Schiilern) werden 
Probleme dargestellt, die auftreten, wenn durch Selektion aus unterschiedlichen Po- 
pulationen (Sonderschiiler versus Regelschiiler) zwei Gruppen mit gleicher Ausgangs- 
lage zusammengestellt werden sollen. 

Bei der Vielfalt moglicher Fragestellungen, die im Rahmen padagogischer Evalua- 
tionsforschung auftreten konnen, konnte es nicht das Ziel dieses Kapitels sein, einen 
reprasentativen Uberblick iiber die Methodik zu geben. An den dargestellten Beispie- 
len sollte aber doch deutlich geworden sein, daB Nachweis und Analyse von Pro- 
grammeffekten einer sophistizierten Methodik bediirfen, die nicht durch teilnehmen- 
de Beobachtung und freie Beschreibung des Programms zu ersetzen ist. 
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10. Padagogische und psychologische Aspekte 



1 . Was versteht man in der Padagogisch-psychologischen Diagnostik unter Schul- 
leistung, und wie kommt Schulleistung zustande? 

2. Welche diagnostischen Parameter bestimmen das Ergebnis von Leistungsmes- 
sungen? 

3. Warn und wie haufig soli diagnostiziert werden? 

4. Welche Nebenwirkungen und Fehier konnen auftreten? 



Vorstrukturierende Lesehilfe 

In der diagnostischen Praxis geht es um die Anwendung von Regeln und Methoden, 
die es gestatten, individuelle Merkmalszustande vor, wahrend und nach einer pad- 
agogischen Behandlung so genau wie notig zu erfassen, damit die darauf gestiitzten 
Entscheidungen zum bestmoglichen Erfolg fiihren (Optimierungsgrundsatz). 

Dem besseren Verstandnis des Sachzusammenhangs dient ein Exkurs, in dem pad- 
agogische Fachausdriicke (wie Didaktik, Curriculum und Lehrziel) erlautert werden. 
Als zentraler Sachverhalt wird das Konstrukt “Schulleistung” eingefiihrt. Es ist von 
Schuler- wie von Schulmerkmalen determiniert und kann tiber Indikatorvariablen 
(Lehrerurteile, Testwerte) erfaBt werden. 

Zur Messung schulischer Lernfortschritte bedarf es der validen Operationalisierung 
der Lehrziele durch den Unterricht und einer dafiir reprasentativen Auswahl von Auf- 
gaben. Die Ergebnisse werden auBerdem - und neben den Schiilerparametern - vom 
MeBzeitpunkt beeinfluBt. Der didaktische Nutzen diagnostischer MaBnahmen hangt 
u.a. von der Haufigkeit der Messung (MeBdichte) ab; zwischen beiden wird eine kur- 
vilineare Beziehung angenommen. 

Die Messung von Schulleistungen kann u.U. in padagogisch unerwiinschter Weise 
auf den Unterricht zuriickwirken und sozialpsychologische Belastungen mit sich brin- 
gen. Ebenso zu beachten sind mogliche Erwartungseffekte sowie Attribuierungs- und 
Beurteilungsfehler, die die Ergebnisse von Schatzverfahren verzerren konnen. 



10.1 Die Funktion Padagogisch-psychologischer Diagnostik 

Die Padagogisch-psychologische Diagnostik richtet sich wie jede andere Diagnostik 
auf die Erhebung individueller Ist-Zustande, d.h. diagnostische Aussagen enthalten 
Informationen iiber die Auspragung interessierender Merkmale bei einzelnen Merk- 
malstragem. Auch Aussagen iiber Gruppen beruhen darauf. Sie ordnen Individuen in 
bezug auf das betrachtete Merkmal homogenen Klassen von Merkmalstragem zu (vgl. 
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z.B. Rollett, 1978; allgemein Kallus & Janke, 1988). Die Anzahl und die Breite der 
zu bildenden Klassen ergeben sich aus der Bedeutung der Klassifikation fur die pad- 
agogischen Zielvorgaben und Behandlungszuweisungen sowie der zu erwartenden 
Folgen. Dies entspricht dem zentralen lernorganisatorischen Problem der Bildung 
hinreichend homogener bzw. heterogener Lerngruppen, gleich ob es sich um Ein- oder 
Umschulungsentscheidungen, Kurszuweisungen, die ad-hoc-Bildung von Lerngrup- 
pen im Gruppenunterricht oder um die Behandlung von Lernstorungen handelt. 

Aus der Unterscheidung von 1st- und Soll-Zustanden ergibt sich eine zweifache 
Funktion fur die Padagogisch-psychologische Diagnostik, namlich zum einen die Fest- 
stellung von Lernvoraussetzungen vor einer geplanten oder erwogenen Intervention 
(Lernsteuerung), zum anderen die Feststellung des Lem- oder Behandlungserfolgs 
nach einer Intervention (Lernkontrolle; Diagnostik als Riickkoppelungsglied; Paw- 
lik, 1982, S. 22). Unabhangig von den padagogischen Absichten und den Randbedin- 
gungen ist beides, diagnostisch gesehen, dasselbe: die Beschreibung individueller Ist- 
Zustande zu verschiedenen Zeitpunkten. Soweit es sich um wiederholte Messung 
desselben Merkmals (an denselben Personen) handelt, konnen individuelle Verande- 
rungen diagnostiziert werden. Deren Bedeutung laBt sich jedoch nur einschatzen, wenn 
man dabei auf Unterschiede zwischen Individuen zuriickgreift (vgl. Abschnitt 9). 

Diagnostische Feststellungen - seien es die alltaglichen informellen, seien es for- 
malisierte - werden in der Regel im Hinblick auf padagogische Entscheidungen ge- 
troffen, d.h. im Hinblick auf bestimmte, fur notig und/oder moglich gehaltene Ver- 
haltensanderungen. Sie sind also mit Erwartungen verkniipft; Neben den 
retrospektiven wird ihnen eine prospektive Bedeutung beigemessen, die den Charak- 
ter einer Vorhersage hat (Wenn-Dann-Verkniipfung: — >); z.B. stiitzen wir die Entschei- 
dung, ein Kind an die Schule fur Lembehinderte zu uberweisen, auf die Erwartung, 
daB es dort besser gefordert werden kann. Padagogisches Handeln findet in der Re- 
gel vor dem Hintergrund komplexer Erwartungsgeflechte statt, wobei vielfach die Er- 
folgswahrscheinlichkeiten von Handlungsalternativen gegeneinander abzuwagen sind 
(vgl. Westmeyer, 1978; allgemein Noack & Petermann, 1988). 

Zumindest fur formalisierte Verfahren und fur Entscheidungen von erheblicher 
Tragweite gilt daher, daB die diagnostischen Informationen hohen Anspriichen an ihre 
pradiktive Validitat geniigen miissen. Die wesentliche Funktion der padagogisch-psy- 
chologischen Diagnostik besteht darin, “richtige” Entscheidungen herbeizufiihren und 
damit die Wahrscheinlichkeit des Erfolgs der padagogischen Behandlung zu erhohen. 
Es liegt auf der Hand, daB Veranderungen in der Regel umso besser bewirkt werden 
konnen, je genauer und valider der Ist-Zustand erhoben wird und je genauer der Soll- 
Zustand definiert ist. Padagogische Praxis ohne Diagnostik ware blind; Diagnostik 
ohne Praxisbezug ware bedeutungsleer (Tent & Waldow, 1984). 

Die diagnostische Praxis besteht aus der Anwendung eines fundierten technologi- 
schen Regelwissens. Ihre Aufgabe besteht zusammenfassend darin, zur Optimierung 
padagogischen Handelns beizutragen, indem sie (idealtypisch) 

(a) die tatsachlichen Ausgangsbedingungen bei den Lernenden klart (Diagnose von 
Lernvoraussetzungen) 

(b) die Wahrscheinlichkeit der Folgen einschatzt, die unter gegebenen Bedingungen bei 
dieser oder jener Behandlungsalternative zu erwarten sind (auf Grundlagenforschung 
gestiitzte Prognose ) 

(c) die tatsachlichen Folgezustande bei den Lernenden feststellt (Diagnose des Lem- 
oder Behandlungserfolgs). 




10.2 Didaktischer Exkurs 



207 



10.2 Didaktischer Exkurs 

Wie jedes andere ist padagogisches Handeln an Zielen orientiert. LaBt man die in der 
Erziehungswissenschaft verbreitete Unterscheidung zwischen Erziehung, Bildung, 
Ausbildung, Lehre und Unterricht beiseite, kann man mit Blick auf die Schule sum- 
marisch von Lehrzielen sprechen. Diese im einzelnen zu formulieren, ist Aufgabe der 
Didaktik. Didaktik kann als das Kerngebiet der Erziehungswissenschaft verstanden 
werden. Ihr Gegenstandsbereich ist die Theorie des Unterrichts. Sie umfaBt alle 
Aspekte der Ziele, der Inhalte und der Organisation von Unterricht, unter EinschluB 
der Begriindungen und der Voraussetzungen. Die allgemeine Didaktik wird in den 
Fachdidaktiken fur die einzelnen Unterrichtsfacher und -gebiete sowie in den Stu- 
fendidaktiken fur einzelne Schulstufen spezialisiert. Die Erkenntnisse der Didaktik 
finden ihren Niederschlag in den Lehrplanen, Richtlinien und Curricula, die den 
Schulen in der Regel von staatlichen Instanzen vorgegeben werden. Vereinfacht ge- 
sagt, geben Lehrplane, Richtlinien und Curricula an, was, wann, weshalb, wozu und 
wie unterrichtet werden soli. Sie lassen dabei dem Lehrer mehr oder weniger groBe 
Spielraume, wie er die Vorgaben umsetzt, z.B. welche Leselehrmethode er benutzt, 
welches von mehreren zugelassenen Schulbuchern er seinem Lateinkurs zugrunde- 
legt oder an welchem Drama er “exemplarisch” das Absurde Theater behandelt. Zwi- 
schen Lehrplan und Curriculum wird zumeist in der Weise unterschieden, daB ein Cur- 
riculum neben der Auflistung von Zielen, Inhalten und Unterrichtsmethoden auch die 
von der Didaktik erarbeiteten Begrundungszusammenhange darlegt und Reforman- 
spriiche einlosen will. Lehrplane und Curricula stellen die verbindlichen Grundlagen 
fur die systematische Planung, Durchfiihrung und Auswertung von Unterrichtsse- 
quenzen dar. 

Die Erziehungs- und Lehrziele beschreiben Soll-Zustande (Normen), auf die hin 
Merkmale von Lernenden verandert werden sollen. Padagogische Absichten und 
Handlungen sind darauf gerichtet, das tatsachliche Verhalten der Lernenden den Soll- 
Zustanden moglichst weitgehend anzunahern. Den Lehrzielen konnen auf seiten der 
Lernenden analoge Lemziele zugeordnet sein. Lemziele sind subjektive Normvorga- 
ben fur die Anderung eigener Personmerkmale. Gelegentlich wird mit Lernziel auch 
das nach erfolgreicher Behandlung erworbene Verhalten bezeichnet. 

Lehrziele kommen in der Praxis natiirlich nicht isoliert vor. Sie sind in der Regel 
in bestimmter Weise miteinander verkniipft. Innerhalb eines Schulfachs bauen sie 
vielfach aufeinander auf, und sie ermoglichen oder erleichtern die Verwirklichung der 
Lehrziele in anderen Fachern. Sie bilden insgesamt eine nach sachlogischen und di- 
daktischen Gesichtspunkten geordnete Struktur. Die Position der einzelnen Teilziele 
ist nicht beliebig vertauschbar. Damit ist zugleich ihre zeitliche Aufeinanderfolge 
mehr oder weniger eindeutig festgelegt (vgl. z.B. Klauer, 1974; Moller, 1974, 1976; 
Schott, Neeb & Wieberg, 1981). Aus diagnostischer wie auch aus didaktischer Sicht 
stellt sich die Frage, wieweit es moglich und zweckmaBig ist, Teil-Lehrziele aus dem 
Lehrzielverbund herauszulosen und diagnostisch zu isolieren; allgemein gefragt, wie 
groB die Lehrzielausschnitte bzw. die diagnostischen Einheiten sein und wo innerhalb 
einer Lehrzielanordnung sie liegen sollen. Fur die Zwecke der Padagogisch-psycho- 
logischen Diagnostik ist ein Lehrziel operational durch eine representative Aufgaben- 
stichprobe zu definieren. 

Die Vielfalt der Lehrziele laBt sich nach verschiedenen Klassifikationsgesichts- 
punkten ordnen. Man spricht von einer Lehrzielhierarchie oder Lehrzieltaxonomie, 
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wenn Lehrziele konsistent nach einem formalen theoretischen Kriterium, z.B. der 
Komplexitat oder dem Abstraktionsniveau, gereiht werden. Mehrdimensionale An- 
ordnungen werden als Lehrzielmatrix bezeichnet. Ein solches Ordnungsgeriist liegt 
z.B. vor, wenn inhaltlich definierte Teilbereiche eines Unterrichtsfachs wie Gesell- 
schaftslehre mit Verhaltensklassen oder den psychologischen Kategorien kognitiv, 
affektiv und motivational kombiniert werden. Zwei unterschiedliche Beispiele fur 
Lehrzielmatrizen sind im Kasten S. 209-211 wiedergegeben; vgl. Abschnitt 6.2.3. 

Ungeachtet der Wertungen, die darin zum Ausdruck kommen, sind Lehrzieltaxo- 
nomien und Lehrzielmatrizen unter dem Blickwinkel der Diagnostik deskriptive Ord- 
nungsschemata fur geforderte Schulleistungen. Neben dem fachlich-inhaltlichen 
Aspekten sind dabei vor allem der Abstraktionsgrad der Lehrziele und die Eindeutig- 
keit von Interesse, mit der sie spezifiziert werden, weil die diagnostischen Verfahren 
moglichst paBgenau darauf abgestimmt sein miissen (curriculare Validitat). Hier ist 
eine Abstufung etwa im Sinne von Moller (1976) hilfreich, die zwischen Richtzielen, 
Grobzielen und Leinzielen unterscheidet. 

Als Richtziele werden Lehrziele des Abstraktionsniveaus 3 bezeichnet. Sie weisen 
den geringsten Grad an Eindeutigkeit und Prazision auf. Sie werden in umfassenden, 
wenig speziftschen Begriffen formuliert, die die Richtung deutlich machen, in der 
gelemt werden soil, ohne daB damit bereits ein bestimmtes Verhalten festgelegt wird. 
Die Verwirklichung solcher Lehrziele kann sich also in einer Vielzahl z.T. sehr ver- 
schiedener konkreter Verhal tens weisen auBern Ziele dieser Art finden sich als Leit- 
vorstellungen in Verfassungsartikeln, Schulgesetzen und Einleitungen zu Curricula. 
So schreibt z.B. die Verfassung des Landes Nordrhein-Westfalen von 1950 in Artikel 
7 vor: “[Erziehungsziel] (1) Ehrfurcht vor Gott, Achtung vor der Wiirde des Men- 
schen und Bereitschaft zum sozialen Handeln zu wecken, ist vornehmstes Ziel der Er- 
ziehung. (2) Die Jugend soil erzogen werden im Geiste der Menschlichkeit, der De- 
mokratie und der Freiheit, zur Duldsamkeit und zur Achtung vor der Uberzeugung 
des anderen, in Liebe zu Volk und Heimat, zur Volkergemeinschaft und Friedensge- 
sinnung.” 

Grobziele sind Lehrziele vom Abstraktionsniveau 2 mit mittlerer Eindeutigkeit und 
Prazision. Es werden bereits Inhalte angegeben, in denen sich die allgemein gehalte- 
nen Richtziele manifestieren. Die Beschreibung laBt aber noch verschiedene Varian- 
ten des Endverhaltens zu, und es fehlt an einem eindeutigen MaBstab fur die Beurtei- 
lung des Erfolgs; z.B. in der Geometrie die Kongruenzsatze oder in der lateinischen 
Syntax den ablativus absolutus kennen. 

Demgegeniiber sind die Feinlehrziele voll operationalisiert (Abstraktionsniveau 1). 
Sie beschreiben das erwiinschte Endverhalten genau und enthalten den MaBstab zu 
dessen Beurteilung; z.B. die Lange der Diagonale in einem Quadrat bestimmen oder 
ein Kapitel aus Caesars “Gallischem Krieg” iibersetzen konnen. Dartiber hinaus wird 
von Mikrolehrzielen (oder Feinstlehrzielen ) gesprochen, wenn es um die konkreten 
Teillemschritte einer Lehrsequenz innerhalb einer Unterrichtsstunde geht. 

Diagnostisch bedeutungsvoll ist auch das Verhaltnis der Lehrziele zu den Lemzie- 
len. Man kann nicht ohne weiteres erwarten, daB sie sich von vomherein entsprachen 
oder sogar deckten. Unter den Bedingungen der Schulpflicht und des “Massen-” 
Unterrichts bedarf es hauftg besonderer didaktischer Bemithungen, eine hinreichen- 
de Korrespondenz herbeizufiihren. Sie liegt in dem MaBe vor, wie der innere Zustand 
der Lemenden, d.h. die Richtung und Intensitat ihrer motivationalen Bereitschaft, die 
intendierte Beeinflussung zulaBt. Diese notwendige Bedingung kann unterschiedlich 
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Zur K I assifi kati on von Lehrzielen 

Sachgerechter Unterricht erfordert - neben anderen Voraussetzungen - eine genaue Lehr- 
stoffanalyse, die Prazisierung der Lehrziele, die Auswahl angemessener Lehrmethoden und 
Lehrmittel sowie die Uberpiiifung des Lehrerfolgs. Ordnungsschemata von der Art der 
Lehrzieltaxonomien und Lehrzielmatrizen sind als Raster zu verstehen, die bei der Planung 
von Unterrichtssequenzen hilfreich sein konnen. Sie spezifieren die Inhalte, die im Un- 
terricht vermittelt werden sollen (Aneignungsphase) und dementsprechend in die Erfolgs- 
kontrolle einzubeziehen sind (Piiifungsphase). Dariiber hinaus verdeutlichen sie die Be- 
ziehungen zwischen den einzelnen Teilzielen, insbesondere deren hierarchische Abhangigkeit 
voneinander und legen insoweit auch die zeitliche Abfolge der Lehrschritte fest. Als ideal- 
typisch vereinfachte Strukturierangshilfen konnen sie das, was in dem hochkomplexen 
Bedingungsgeflige “Unterricht” tatsachlich geschieht, allerdings nur naherangsweise vor- 
bestimmen. 



(1) Eine Lehrzielmatrix zur "Fahigkeit eines Kindes, Konflikte zu losen" (nach Schott, 
Neeb & Wieberg, 1981, S. 25). 





Handlungsaspekt 


Soziale Verhaltensweisen 


> eigene Bediirfnisse auSem 


CD eigene Bediirfnisse verteidigen 


O auf eigene Wiinsche verzichten 


D Bediirfnisse anderer erkennen 


m Bediirfnisse anderer akzeptieren 


•n Kompromisse schlieBen 


Situativer Aspekt 


Arten von 

Kommunikationspartnem 


vertraute Erwachsene 


Einzelperson 1 














Gruppe 2 














unvertraute Erwachsene 


Einzelperson 3 














Gruppe 4 














vertraute Gleichaltrige 


Einzelperson 5 














Gruppe 6 














unvertraute Gleichaltrige 


Einzelperson 7 














Gruppe 8 
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Diese Matrix setzt verschiedene situative Bedingungen mit spezifischen Handlungskom- 
petenzen in Beziehung, die das Kind erwerben soil. Die einzelnen Zellen reprasentieren 
Teillehrziele, die nach MaBgabe der relevanten Randbedingungen ausgewahlt werden konnen. 
Das Feld E8 z.B. beschreibt das Lehrziel, in einer unvertrauten Gruppe Gleichaltriger die 
handlungsbestimmenden Bedilrfnisse der anderen zu akzeptieren. Dies setzt das Erken- 
nen der Bedlirfnisse (D8) voraus. Zu den Randbedingungen zahlen der (kognitive) Ent- 
wicklungsstand des Kindes, die situativen Anforderungen, die in seiner Lemumwelt vor- 
kommen sowie seine Fahigkeit zum Lerntransfer. 

(2) Eine Matrix zur Klassifikation von Lehrzielen fiir die Unterrichtseinheit "Entwick- 
lungsland Nigeria" im Erdkundeunterricht des 8. Oder 9. Schuijahrs (nach S. Schacht, 
in Moller, 1974, S. 143-152). Die gekennzeichneten Felder werden im Textdurch Beispiele 
belegt. 


Inhaltsklassen 


Verhaltensklassen 


Wissen 

(1.00) 


Ver- 

stehen 

(2.00) 


An- 

wenden 

(3.00) 


Ana- 

lyse 

(4.00) 


Syn- 

these 

(5.00) 


Beur- 

teilung 

(6.00) 


I. Naturlandschaftsgeographie 
(Physische Geographie, Geo- 
Okologie — ohne Unterklassen) 














II. Kulturlandschaftsgeographie 
( Anthropogeographie ) 














II. 1 Bevolkerungsgeographie 














II.2 Siedlungsgeographie 














II.3 Agrargeographie 














II.4 Industriegeographie 


+ 


+ 


+ 


+ 


+ 


+ 


II.5 Geographie des tertiaren 

Sektors (Handels-, Verkehrs- 
geographie) 














II.6 Politische Geographie 














III. Sozialgeographische Be- 
trachtungsweisen 














III. 1 Sozialraumliche Ordnungen 














III.2 Regionale Systeme 














III.3 Sozialgeographische Prozesse 
(z. B. Innovationen) 














III.4 Prognosen 














IV. Methodische Hilfen 














IV. 1 Karten 














IV.2 Terrestrische Bilder, Luftbilder 












IV.3 Quantitative Methoden 
und Modelle 
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Die Inhaltsklassen 1 bis IV orientieren sich an einem bestimmten geographischen Ordnungs- 
schema. die Verhaltensklassen 1.00 bis 6.00 an der “kognitiven Lernzieltaxonomie” von 
Bloom und Mitarbeitern (1971). Die Ziffem besagen hier, daB die Taxonomieklassen nach 
Bedarf bis zu zwei Stellen weiter unterteilt werden konnen. Die Zellen beschreiben mog- 
liche Feinlehrziele: die vom Lehrer ausgewahlten Feinlehrziele sind bestimmten Grob- 
zielen zugeordnet und miissen in der Matrix lokalisierbar sein. Die Unterrichtseinheit umfaBt 
in diesem Fall elf Grobziele, u.a.: “Der Schuler soil wichtige Daten und Fakten iiber die 
Bevolkerung Nigerias und ihre tribalistische Differenzierung kennen” (Grobziel [GZ] 1. 
zu Inhaltsklasse [IK] II.l), “Der Schuler soil Entwicklungsplanungen und Investitionen 
am Beispiel der Region Ostnigeria (Biafra) beurteilen, um die Problematik von Entwick- 
lungshilfe zu durchschauen” (GZ 7, zu IK 11.4). “Der Schuler soli die Entwicklung, Be- 
deutung und gegenwartige Situation der nigerianischen Erdolwirtschaft kennen” (GZ 8. 
zu IK II.4). Die sechs Taxonomieklassen werden hier durch die folgenden Beispiele ftir 
Feinlehrziele zur Inhaltsklasse II.4 erlautert: 

Klasse 1.00: Wissen (zu GZ 8) 

Der Schuler soli aus einer Liste mit vier Eigenschaften diejenige heraussuchen und an- 
kreuzen, die das nigerianische Erdol besonders wertvoll macht. 

Klasse 2.00: Verstehen (zu GZ 8) 

Der Schuler soil auf Grand einer vorgegebenen Tabelle iiber die Entwicklung der Erdol- 
produktion vom Jahre 1958 bis zum Jahre 1970 in ein vorgegebenes Koordinatensystem 
ein entsprechendes Kurvendiagramm einzeichnen. 

Klasse 3.00: Anwenden (zu GZ 8) 

Der Schuler soil durch Aufschreiben weniger Stichworte den Tiefpunkt der Erdolproduk- 
tion im Jahre 1968 begriinden (Biirgerkrieg Nigeria - Biafra; Seeblockade des Olhafens 
Bonny). 

Klasse 4.00: Analyse (zu GZ 7) 

Der Schuler soil aus zwei ihm vorgegebenen Informationen (1. Europaische und ameri- 
kanische Erdolgesellschaften haben in Nigeria mehrere Mrd. Dollar investiert, 2. Die 
Sowjetunion will sich mit 55 Mill. £N am Aufbau eines Stalilwerkes in Nigeria beteili- 
gen) die Interessen der GroBmachte in Nigeria ableiten. Er soil aufschreiben und schrift- 
lich diskutieren, inwiefem es hier zu einem doppelten Interessenkonflikt konimt (Ost -West; 
Industrienationen - Entwicklungslander). 

Klasse 5.00: Synthese (zu GZ 7) 

Der Schuler soil an Hand einer vorgegebenen Karte von Ostnigeria genau zwei optimale 
Standorte flir ein geplantes Stahlwerk benennen und wenigstens filnf Griinde aufschrei- 
ben, die jeweils fur die Wahl eines Standortes sprechen. 

Klasse 6.00: Beurteilung (“Evaluation”; zu GZ 7) 

Der Schuler soil einen vorgegebenen Schulbuchtext liber die nigerianische Erdolwirtschaft 
(Dreimal um die Erde, Bd. 2, S. 21) kritisch beurteilen. Er soil erkennen und sinngemaB 
aufschreiben, daB in dem Text zwar auf die hohen Investitionen und Abgaben hingewie- 
sen wird, daB aber iiber Eigentumsverhaltnisse und Gewinne kein Wort fallt. 

In den Feinlehrzielen sind teilweise zugleich die Kriterien fiir den Lemerfolg festgelegt. 



gut erfiillt sein. Sie geht indirekt in die Varianz vieler Merkmale ein, die uns diagno- 
stisch interessieren. ohne daB wir jeweils ihren Anted erkennen konnten. So schwer 
es oft ist, dies nachzuweisen (vgl. Tent, 1969, S. 135-140; Kuhn, 1983, S. 159-163), 
wir miissen davon ausgehen, daB motivationale Komponenten Bestandteil der MeBer- 
gebnisse bei alien Leistungen sind, die der padagogischen Beeinflussung unterliegen. 
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Haufig wird es notwendig sein, die motivationalen Voraussetzungen im Einzelfall zu 
klaren. 



Grundlegende Literatur zu 10.2: 

Brezinka, W. (1981). Erziehungsziele, Erziehungsmittel, Erziehungserfolg. Beitrage 
zu einem System der Erziehungswissenschaft (2. Aufl.) Munchen: Reinhardt. 
Glockel, H. (1992). Vom Unterricht. Lehrbuch der Allgemeinen Didaktik (2. Aufl.). 
Bad Heilbrunn: Klinkhardt. 

Roth, L. (Hrsg.) (1991). Padagogik. Handbuch fur Studium und Praxis. Munchen: 
Ehrenwirth. 



Weiterfiihrende Literatur: 

Diederich, J. (1988). Didaktisches Denken. Weinheim: Juventa. 

Klafki, W. (1991). Neue Studien zur Bildungstheorie und Didaktik (2. Aufl.). Wein- 
heim: Beltz. 



10.3 Schulleistung als Konstrukt 

Konzentriert man sich auf die Schule, ist der zentrale Gegenstand Padagogisch-psy- 
chologischer Diagnostik das, was man summarisch als “Schulleistung” bezeichnet. 
Es werden Schirlermerkmale erfaBt, fur die entweder evident ist, daB es sich um 
Schulleistungen oder Verhaltensaspekte im Sinne der iiblichen Zeugnisrubriken han- 
delt (z.B. Aufsatze verfassen, Prozentrechnung; Betragen, FleiB), oder es geht um 
Merkmale, die systematisch damit korrelieren und sich anteilig als Voraussetzung 
oder als Folge padagogischer Behandlung interpretieren lassen (z.B. Intelligent, Kon- 
zentration, Angstlichkeit). Diagnostische Aussagen konnen sich dementsprechend auf 
alle individuell bedeutungsvollen Aspekte von Schulleistung erstrecken. Dies schlieBt 
neben kognitiven und motorischen auch solche Schirlermerkmale ein, die sozialen, 
affektiven und motivationalen Lehrzielen zugeordnet sind, wie Einstellungen, Wert- 
haltungen und Gesinnungen. Mit “Leistung” wird hier im allgemeinsten und wer- 
tungsneutralen Sinn jedes Ergebnis menschlichen Handelns bezeichnet. 

Schulleistungen liegen nicht einfach offen zutage. Sie basieren zwar auf Beobach- 
tungsdaten; deren Bedeutung muB jedoch jeweils erst ermittelt werden. Testwerte, 
Schulnoten und andere Lehrerurteile haben dabei die Funktion von Indikatorvaria- 
blen. Sie stellen unterschiedliche operationale Definitionen dar, in denen sich Schul- 
leistungen mehr oder weniger konkordant manifestieren. Als allgemeine schulpad- 
agogische Kategorie wird “Schulleistung” trotz des Grundwortes -leistung zum 
Sammelbegriff fiir eine Vielzahl padagogisch-psychologischer Einzelkonstrukte, die 
als Resultanten eines multifaktoriellen, heterogenen Beziehungsgeflechts aus Schil- 
ler- und Schulmerkmalen zu verstehen sind (Tent, Fingerhut & Langfeldt, 1976, S. 
15-18; Langfeldt & Fingerhut, 1984; s. Abbildung 10.1, S. 213). 




10.3 Schulleistung als Konstrukt 




Abbiidung 10.1: Das Konstrukt Schulleistung. Vereinfachtes Schema seiner Determinanten und Indikatoren. 
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Zu den “Schulmerkmalen” zahlen vor allem die Lehrer, aber auch die Lehrplane 
und die organisatorischen Bedingungen, wie z.B. die Gliederung des Schulsystems, 
die Lehrer-Schiiler-Relation (MeBzahl) und die materielle Ausstattung der Schulen. 
Die Beschaffenheit der Schulmerkmale geht im wesentlichen auf gesellschaftliche 
Ubereinkiinfte zuriick, die von Legislative und Exekutive als den politisch verant- 
wortlichen Entscheidungstragem in verbindliche Vorschriften (Gesetze, Verordnun- 
gen, Erlasse) umgesetzt werden. 

Die einzelnen WirkgroBen tragen nicht nur fur sich zum Zustandekommen von 
Schulleistung bei. Nach den in Abschnitt 1.4.1 dargelegten Modellannahmen ist mit 
Kovarianz- und Wechselwirkungseffekten sowohl innerhalb der Schuler- wie der 
Schulmerkmale als auch zwischen beiden zu rechnen. Bemerkenswerte Beispiele fur 
Wechselwirkungen zwischen Unterrichtsstil und Schiilertyp hat Bennett (1979) fur 
Leistungen in Mathematik und Muttersprache gefunden; Rheinberg (1980) konnte fur 
die Furchtreduktion bei Schiilern eine Wechselwirkung zwischen der Intelligent der 
Schuler und der Bezugsnormorientierung bei der Leistungsriickmeldung durch die 
Lehrer nachweisen. 

Die zwei Klassen von Indikatorvariablen fur das Konstrukt unterscheiden sich in 
der Regel durch ihre instrumentelle Giite. Als Schatzwerte fur die Resultante “Schul- 
leistung” verkorpern Schulnoten und andere Lehrerurteile die diagnostische Leistung 
eines Beteiligten; d.h. sie sind zugleich anteilig Selbsteinschatzung. Wie gut sie im 
konkreten Fall sind, ist zumeist nicht bekannt. Demnach konnen empirische Schul- 
noten die individuellen Unterschiede bei den Schiilern von vomherein nur unvollkom- 
men widerspiegeln, weil kaum vermeidbare konstante oder variable Lehreranteile 
unkontrolliert in die Urteilsbildung einflieBen. Dies schlieBt nicht aus, daB Lehrerur- 
teile hoch valide sein konnen, aber man kann es ihnen, anders als bei einem standar- 
disierten Test mit bekannten Giiteeigenschaften, nicht “ansehen”. Allerdings gilt - wie 
schon friiher betont - auch fur objektive Schulleistungstests, daB sie iiber die Schii- 
lerleistung indirekt die Qualitat des erteilten Unterrichts miterfassen. Schulleistungen 
werden zwar an Schiilern erhoben und ihnen auch diagnostisch zugeschrieben; die 
Abbildung 10.1 macht jedoch deutlich, daB diese einseitige Kausalattribuierung un- 
zulassig ist, weil die iibrigen Bedingungen nicht annahernd konstant gehalten wer- 
den konnen und ihr Varianzanteil zumeist nicht bekannt ist. 

Padagogisch-psychologische Diagnostik richtet sich sowohl auf die Schulleistung 
als Resultante als auch auf die iibrigen Personmerkmale der Beteiligten. Bei den Schii- 
lern sind es Merkmale, die hier zusammenfassend als individuelle Lernvoraussetzun- 
gen bezeichnet werden konnen. Grundsatzlich kann sich Diagnostik aber auch auf die 
analogen Merkmale bei den Lehrern erstrecken. Anders als in den USA (s. Millman 
& Darling -Hammond, 1990) wird dieser Anted des Bedingungsgefiiges bei uns rela- 
tiv wenig beachtet (zur Methodik vgl. Bessoth, 1983). Zur didaktischen Kompetenz 
der Lehrer gehort die Fahigkeit, Verhalten und Leistungen der Schiller zu beurteilen. 
Der Erfolg padagogischen Handelns kann nicht besser sein als die Diagnose der Aus- 
gangsbedingungen, an denen es ansetzt. Die diagnostische Kompetenz der Lehrer 
spiegelt sich daher nicht nur in der Qualitat der Notengebung, sie schlagt sich auch 
im objektiven Schulerfolg nieder (Schrader, 1989). Die iibrigen im Schema angefiihr- 
ten nichtpersonalen Merkmale und Wirkfaktoren haben, auf die Diagnostik bezogen, 
die Funktion wichtiger Randbedingungen, die bei der Interpretation diagnostischer 
Ergebnisse zu beriicksichtigen sind, wie z.B. haufiger Unterrichtsausfall, mehrfacher 




10.4 Die Messung padagogisch-psychologischer Konstrukte 



215 



Lehrerwechsel oder mangelhafte Ausstattung mit Lehrmitteln (“schulisches Schick- 
sal”; Schmitz, 1964). 



10.4 Die Messung padagogisch-psychologischer Konstrukte 

Padagogisch-psychologische Konstrukte sind kontinuierliche Variablen (Xj), auf de- 
nen Schuler in Abhangigkeit von Lehrbemuhungen und von ihrer eigenen Aktivitat 
voranschreiten. Das Voranschreiten der Schuler ist auf Indikatorvariablen (Xj’) ab- 
zulesen, durch die die (Xj) operational definiert sind. Im Falle von Tests, grundsatz- 
lich aber auch bei Klassenarbeiten, steht (Xj’) fur ein Lehrziel oder eine Hierarchie 
inhaltlich zusammengehoriger Lehrziele, z.B. “Dreisatzaufgaben losen konnen”, 
“Landkarten lesen konnen” oder “Interpunktionsregeln beherrschen”. Es ist zweck- 
maBig, die Lernschritte oder die Positionen, die auf der Variablen meBgenau unter- 
schieden werden sollen, durch eine hinreichende Anzahl entsprechender, untereinan- 
der gleichwertiger Aufgaben zu reprasentieren. 

Die padagogischen Merkmale, die auf diese Weise erfaBt werden sollen, unter- 
scheiden sich natiirlich im Umfang des Kontinuums, d.h. im Hinblick auf die didak- 
tisch unterscheidungsbedurftigen MeBpunkte. So ist z.B. die “Fahigkeit zur Zehner- 
iiberschreitung bei Addition und Subtraktion” im Mathematik-Anfangsunterricht ein 
relativ “schmales” Merkmal; die “Lesefertigkeit” oder die ‘‘Beherrschung der wich- 
tigsten Rechtschreibregeln” sind Beispiele fur “breitere” Merkmale. AuBerdem kon- 
nen so definierte Merkmale an jeder Stelle dichotomisiert werden, so daB sich jeweils 
fur einen bestimmten Zeitpunkt die Anteile der Schuler ermitteln lassen, die sich ober- 
bzw. unterhalb des Schnittpunkts befinden (“kriteriumsorientierte” Leistungsmes- 
sung; vgl. Abschnitt 6.2). Solche Zwischenkontrollen des Unterrichtserfolgs konnen 
bei umfangreicheren Lehreinheiten von didaktischem Interesse sein. 

Wie genau Lemzustande der Schuler diagnostiziert werden konnen, hangt von der 
Prazision der didaktischen Planung des Unterrichts und von dessen tatsachlichem Ver- 
lauf ab. Die Planung richtet sich (anteilig) darauf, aus der Menge der moglichen 
(Fein-) Fehrziele jeweils eine Auswahl zu treffen, d.h. die Fehrziele so festzulegen 
und zu ordnen, daB sie der Sachstruktur des Gegenstands, den Ist-Zustanden der Fer- 
nenden und deren aktivierbarer Fernkapazitat moglichst gut entsprechen. 

Im Hinblick auf den ublichen Schulunterricht sind Fehrziele genau dann richtig 
definiert und damit “curricular zulassig”, wenn empirisch gezeigt werden kann, daB 
mit angemessenem padagogischen Aufwand innerhalb angemessener Zeit der Zustand 
0 (keiner der Adressaten hat das Fehrziel erreicht) in den Zustand 1 (moglichst alle 
haben es erreicht) uberfiihrbar ist. Was hier als angemessen zu gelten hat, wird an- 
hand von Erfahrungswerten und didaktischem Regelwissen durch padagogische 
Experten festgelegt und in die Richtlinien und Fehrplane fur die Schulstufen und 
Unterrichtsgebiete aufgenommen, z.B. “Strukturierung des Feselehrgangs im 
1. Schuljahr”, “jahrgangsspezifischer Aufbau des Rechtschreibunterrichts in der 
Grundschule” oder “lernen, sich in der naheren und weiteren Umgebung zurechtzu- 
finden” bei Geistigbehinderten. 

Fur jedes didaktisch zulassige Fehrziel existieren also auf seiten der Fernenden ein 
Ausgangs-, ein Ubergangs- und ein End- oder Soll-Zustand. Den Ubergangszustand 
moglichst kurz zu halten, ist ein wichtiger und althergebrachter padagogischer Grund- 
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satz (Okonomieprinzip; Comenius [vgl. 1959, §3]: “Richtig lehren bedeutet bewirken, 
daB jemand schnell, angenehm und griindlich lerne”). Unter jeweils vergleichbaren 
Bedingungen gilt dabei naherungsweise: Je breiter der Ausschnitt aus einem Lehrpro- 
gramm (je komplexer das Lehrziel), desto mehr Zeit ist notig, bzw. je schmaler der 
Ausschnitt (je elementarer das Lehrziel), desto kiirzer ist die Ubergangszeit. 



10.5 Die diagnostischen Parameter 

Dem vorigen Abschnitt zufolge geht die empirische Verteilung der MeBwerte von 
(Xj’) auf folgende Bedingungen zuriick: 

(a) den vorgegebenen Lehrzielbereich, d.h. auf die Breite, die Lage und das Abstrak- 
tionsniveau des Ausschnitts aus dem Merkmalskontinuum von (Xj), der durch das 
MeBverfahren reprasentiert wird 

(b) den MeBzeitpunkt 

(c) die unterschiedliche Lemfahigkeit und die aktuelle Befindlichkeit der zugelasse- 
nen Schuler 

(d) die unterschiedliche curriculare Validitat des erteilten Unterrichts 

(e) die MeBungenauigkeit des Instruments (den MeBfehler, der auf mangelnder inne- 
rer Konsistenz beruht). 

Fur jede an Lehrzielen orientierte Diagnostik besteht also ein Problem darin, die 
Breite und die Lage des Ausschnitts aus der Lehrzielmatrix festzulegen, der fur ein 
bestimmtes Schiilerkollektiv durch ein bestimmtes Verfahren abgedeckt werden soil. 
Ein weiteres diagnostisches Problem liegt in der Lokalisierung der MeBpunkte auf 
dem Zeitkontinuum, d.h. in bezug auf die korrespondierenden Teilausschnitte aus der 
Unterrichtssequenz. Fiir MeBzeitpunkte, zu denen sich mindestens ein Schuler im 
Hinblick auf mindestens eins der aufgenommenen Lehrziele schon oder hochstens 
noch im Ubergangszustand befindet, ist Streuung zwischen den Individuen zu erwar- 
ten; die GroBe der Streuung hangt unter sonst gleichen Bedingungen vom MeBzeit- 
punkt ab. 

Da die statistische Aufgabenschwierigkeit durch den MeBzeitpunkt mitbestimmt 
wird, sind die MeBwertverteilungen umso empfindlicher gegen die Wahl der MeBzeit- 
punkte, je schmaler der Ausschnitt aus der Lehrzielmatrix ist, bzw. je kiirzer die Uber- 
gangszeit. Entsprechend sind Verfahren mit einem breiteren Lehrzielspektrum robu- 
ster gegen die Lage der MeBzeitpunkte, d.h. sie liefern langer didaktisch verwertbare 
Information. Die Abbildung 10.2a veranschaulicht die Verteilungen einer Schullei- 
stungsvariablen (X), die zu verschiedenen Zeitpunkten (t) mit einem Breitbandver- 
fahren gemessen wird. Fiir jeweils einen Zeitpunkt gibt die Verteilung zugleich die 
relative Schwierigkeit der Aufgaben wieder. Die Zunahme der Losungswahrschein- 
lichkeit fiir homogene Aufgaben, die dasselbe (Teil-)Lehrziel, d.h. denselben MeB- 
punkt (X crit ) reprasentieren, verdeutlicht Abbildung 10.2b (nach Tent & Waldow, 
1984). 
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Abbildung 10.2: Verteilung einer Schulleistungsvariablen (X) zu verschiedenen Zeitpunkten 
(t) (S = Schwierigkeit; 10.2.a) und Zunahme der Losungswahrscheinlichkeit flir einen Krite- 
riumswert bei lehrzielhomogenen Aufgaben (10.2.b). 



Wegen unterschiedlicher Anregungsbedingungen, denen die Schuler auBerhalb der 
Schule ausgesetzt sind, wegen Uberschneidungen innerhalb der Unterrichtssequen- 
zen und wegen unterschiedlicher Lern- und Vergessenseffekte erscheint es realistisch 
anzunehmen, daB fur ein bestimmtes Schlilerkollektiv flir nahezu jeden MeBzeitpunkt 
(Teil-)Lehrziele angegeben werden konnen, flir die jeweils gilt, daB sich alle Schuler 
im Zustand 0, alle im Zustand 1, (fast) alle im Ubergangszustand (U), einige noch im 
Zustand 0 (die ubrigen in U oder 1), einige schon im Zustand 1 (die iibrigen in U oder 
0) und einige im Ubergangszustand (die ubrigen in 0 oder 1) befinden. Der didakti- 
sche Nutzen eines diagnostischen Verfahrens wird im allgemeinen umso groBer sein, 
je genauer es die verschiedenen Lemzustande der Schuler abzubilden gestattet. Dies 
angemessen zu beachten, ist das zentrale Problem der Konstruktion von Schullei- 
stungtests. Angemessen heiBt hier, Verfahren zu entwickeln, die MeBokonomie und 
didaktische Ergiebigkeit optimal in sich vereinen. Verschiedene Modelle einer “Lehr- 
planorientierten Diagnostik” werden bei Shapiro & Terr (1990) vorgestellt. 

Die neueren Modellansatze zur Prazisierung des diagnostischen Vorgehens im Sin- 
ne “mafigeschneiderter” individualisierter Mikrostrategien (vgl. Abschnitt 8) erfor- 
dern einen sehr hohen Konstruktionsaufwand. Sie setzen flir jeden Lehrzielausschnitt 
und jede Schiilerpopulation umfassende und vollstandig durchprogrammierte Satze 
reliabler und valider Testaufgaben voraus. Flir die diagnostische Praxis in der Schule 
spielen sie vorlaufig noch keine wesentliche Rolle. 
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Beschrankt man sich bei der Festlegung der Breite und Lage des Ausschnitts aus 
einer Lehrzielmatrix auf komplexe Lehrziele oder Lehrziele hoheren Abstraktionsni- 
veaus, erhalt man, didaktisch gesehen, eher grobmaschige Verfahren. Prognostisch 
verwendet, enthalten sie, wie manche der konventionellen Schulleistungstests, fur die 
auf Mikrolehrziele gerichteten didaktischen Einzelakte nur wenig Information. Sie 
liefern lediglich, nach MaBgabe des zu erwartenden Lemtransfers, allgemeine Trends 
der Erfolgswahrscheinlichkeit fur verschieden leistungsfahige Schiilergruppen. 

Wollte man sich auf Mikrolehrziele, im Grenzfall auf kleinste didaktische Hand- 
lungseinheiten und deren Verhaltenskonsequenzen beim Lemenden beschranken, 
hatte dies eine Kontrolldichte zur Folge, die einen didaktisch fliissigen und reagiblen 
Unterricht kaum noch zulieBe. Komplexitat bzw. Abstraktionsniveau der Lehrziele 
und Kontrolldichte korrelieren: Je umfassender (abstrakter) die Lehrziele, desto gro- 
Ber konnen die Abstande zwischen den MeBzeitpunkten sein, und entsprechend um- 
gekehrt (“summative” versus “formative” Evaluation im Sinne von Bloom, Hastings 
& Madaus, 1971). Im einen Fall vermindert sich der unmittelbare didaktische Nut- 
zen nicht nur, weil die Information zu allgemein wird, sondern auch deshalb, weil sie 
zunehmend zu spat kame. Im anderen Fall wiirde sich der didaktische Nutzen vermin- 
dem, weil diagnostischer Perfektionismus die Gefahr mit sich brachte, seinen leben- 
digen Gegenstand zu ersticken. Wie jede andere ist auch die Padagogisch-psycholo- 
gische Diagnostik nicht Selbstzweck. So grundlegend ihre Bedeutung auch ist, sie 
untersteht dem bereits friiher erwahnten Primat der Didaktik. Wir stoBen hier auf das 
Bandbreiten-Genauigkeits-Dilemma (Cronbach, 1970, S. 179-182), das als Variante 
des Generalisten-Spezialisten-Dilemmas verstanden werden kann: Man erfahrt ent- 
weder immer weniger Genaues iiber immer mehr (im Grenzfall “nichts iiber alles”) 
oder immer Genaueres iiber immer weniger (im Grenzfall “alles iiber nichts”; Tent & 
Waldow, 1984, S. 17-19). 



10.6 MeBdichte und didaktische Ergiebigkeit 

Auch unabhangig von der Anwendung formeller Testverfahren kennen erfahrene Leh- 
rer das Problem der VerhaltnismaBigkeit des padagogischen Kontrollaufwands, d.h. 
der Relation der Haufigkeit und Griindlichkeit von Lernkontrollen zu deren didakti- 
schen Nutzen (Problem der Kontrolldichten-Optimierung; vgl. Kaminski, 1982, zur 
Taxonomie psychodiagnostischer Prozesse). 

Nach den vorangegangenen Darlegungen sind aus didaktischer wie aus diagnosti- 
scher Sicht tendenziell mittlere Testzeitabstande geboten, d.h. mittlere Dichten der for- 
malisierten Riickkoppelung (s. Abbildung 10.3). Bei mittlerer MeBdichte ist unter 
sonst gleichen Bedingungen hypothetisch die hochste didaktische Ergiebigkeit zu er- 
warten. Das bedeutet, daB es einen Bereich optimaler Kontrolldichte gibt, dessen 
Uberschreitung keinen zusatzlichen Informationsgewinn mehr bringt, sondern u.U. 
zu einem Abfall fiihrt, weil es mit zunehmender Dichte der Messungen zu uner- 
wiinschten Nebenwirkungen und Storeffekten kommen kann. Was jeweils “mittlerer 
Testzeitabstand” oder “optimale Kontrolldichte” ist, wird von Gegenstand zu Gegen- 
stand sowie mit dem Alter und dem kognitiven Entwicklungsstand der Schuler vari- 
ieren (vgl. dazu Ingenkamp, 1975, S. 84-87). Didaktische Ergiebigkeit ist das Aus- 
maB, um das sich die Erfolgswahrscheinlichkeit didaktischer Entscheidungen durch 
diagnostische Information vergroBern laBt. 
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MeBdichte 

Abbildung 10.3: Hypothetische Beziehung zwischen MeBdichte und didaktischer Ergiebig- 

keit bei der Anwendung von Schulleistungstests unter sonst gleichen Bedingungen (nach Tent 
& Waldow, 1984). 

Dies entspricht dem Netto-Nutzen einer zureichenden Diagnostik. Eine Diagnostik 
ist in dem MaBe zureichend, wie siefur den Zweck, zu dem sie verwendet werden soli, 
nachweislich effizient ist, d.h. wie sich mit ihrer Hilfe okonomischer und/oder wirk- 
samer als mit alternativen Strategien Risiken mindern oder Erfolgswahrscheinlich- 
keiten erhohen lassen. 

Was jeweils zureichend ist, hangt von der Fragestellung und der Zielsetzung ab. 
Kommt es z.B. darauf an, Unterschiede im aktuellen Leistungsstand innerhalb einer 
Schulklasse zu erfassen, geniigt vielfach das Urteil erfahrener Lehrer (vgl. z.B. Tent, 
Fingerhut & Langfeldt, 1976). Es ware unnotig und unokonomisch, dafiir routinema- 
Big Verfahren mit der hochstmoglichen MeBgenauigkeit einzusetzen. Geht es aber um 
langerfristige Behandlungszuweisungen, liefert das Lehrerurteil allein erwiesenerma- 
Ben keine zureichende Diagnostik. Es miissen, vor allem wenn es sich um Entschei- 
dungen von erheblicher Tragweite handelt, formalisierte MeBverfahren hinzukom- 
men, die hohen Anspriichen an die iiblichen Testgutekriterien genilgen (nach Tent & 
Waldow, 1984). 

Fur einen gegebenen Testzeitpunkt (t,) gilt demnach: Es ist ein mittelgroBer didak- 
tischer Ausschnitt, und damit ein mittellanger zeitlicher Abschnitt, diagnostisch vali- 
de abzudecken. Sollen dabei interindividuelle Unterschiede vollstandig erhoben wer- 
den, muB sich, bei zeitlich richtiger Plazierung, unter den verschiedenwertigen 
Lehrzielen einer vorgegebenen Lehrzielmatrix mindestens eines befinden, fur das der 
Grenzfall 0 und mindestens eines, fur das der Grenzfall 1 gilt; die anderen hatten ir- 
gendwo dazwischen zu liegen. Das gleiche gilt, wenn es darum geht, die curriculare 
Validitat von Unterricht unter sonst gleichen Bedingungen genau in Erfahrung zu 
bringen. 

Wieweit es sich bei den padagogisch-psychologischen Konstrukten, die hier unter 
dem Sammelbegriff “Schulleistung” subsumiert werden, um Konstrukte im Sinne 
psychologischer Fahigkeiten oder Eigenschaften, d.h. um Personlichkeitsmerkmale 
i.e.S. handelt, ware im Bedarfsfall gesondert zu untersuchen. Es geht dabei um die 
inhaltliche Bedeutung der retestreliablen Varianzanteile an den Ergebnissen der wie 
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auch immer etikettierten Priifverfahren. Ein Schulleistungstest, fiir den dies nachge- 
wiesen ist, liefert damit - iiber den Ist-Zustand hinaus - zusatzliche diagnostische In- 
formationen, die padagogisch umso niitzlicher sein konnen, je valider er relevante 
Merkmale abbildet. So kann z.B. ein Mathematiktest neben der manifesten Schullei- 
stung in einem definierten cuiricularen Ausschnitt anteilig Rechnerisches oder 
SchluBfolgerndes Denken als Subdimensionen der Intelligenz miterfassen. Unter 
sonst gleichen Bedingungen kann die MeBdichte umso niedriger angesetzt werden, 
je retestreliabler, d.h. je zeitstabiler oder behandlungsresistenter ein betrachtetes, di- 
daktisch valides Merkmal ist. Ungeachtet ihrer Schwachen eignet sich die klassische 
Testtheorie besonders gut fiir die Analyse, welche der zahlreichen Aspekte von Schul- 
leistung zeitlich weniger stabil sind, bzw. welche als “stabiler” gelten konnen und mit 
welchen personalen und/oder situativen Randbedingungen dies korreliert (Tent, Fin- 
gerhut & Langfeldt, 1976; Tent, 1991). 

Ein Merkmal, fiir das tiberhaupt keine retestreliablen MeBwerte zu erheben sind, 
ist didaktisch wertlos. Didaktisch besonders interessant sind solche Variablen, fiir die 
empirisch gezeigt werden kann, daB sich infolge padagogischer Intervention nicht nur 
die Mittelwerte und Streuungen sondern auch die Retestkoeffizienten andern fiir die 
also systematische Wechselwirkungen zwischen Behandlung und Schulermerkmal 
bestehen. Beispiele dafiir wurden bereits in Abschnitt 10.3 erwahnt (Aptitude -Treat- 
ment-Interaction, ATI). 



10.7 Neben wirkungen und Fehlerquellen 

In der diagnostischen Praxis ist mit einer Reihe von Problemen zu rechnen, die man 
beachten muB, wenn man sachgerecht vorgehen und die Befunde angemessen inter- 
pretieren will. Es handelt sich dabei um nachteilige Nebenwirkungen, die der Einsatz 
diagnostischer Verfahren mit sich bringen kann, sowie um Mangel und Fehler, die bei 
der Aufnahme, der Speicherung und der Verwertung diagnostischer Informationen 
auftreten konnen (s. Kasten S. 221). 



10.7.1 Problematische Nebenwirkungen 

(a) Riickbindungseffekte 

Wegen der notwendigen Verschrankung von Unterricht und Schulleistungsdiagnostik 
kann es insofern zu Riickwirkungen auf den Unterrichtsablauf und das Lemverhalten 
der Schuler kommen, als ubermaBig stark auf die Priifungen hin gelehrt und gelernt 
wird. Das mag zwar im Sinne der Standardisierung der Bedingungen nicht unerwiinscht 
sein, fuhrt aber dann zu padagogisch fragwurdigen Zwangen, wenn deshalb auf die Fle- 
xibility verzichtet werden miiBte, im Unterricht aktuelle Anlasse aufzugreifen oder 
sich auf spontane Bediirfnisse bei Schiilern und Lehrem einzustellen. Bis jetzt ist aller- 
dings nur wenig daruber bekannt, in welchem MaBe in Schulen tatsachlich auf Priifun- 
gen hin unterrichtet wird, und wie sich dies im einzelnen auswirkt (Ingenkamp, 1975; 
Kellaghan et al., 1982). Auch aus dieser Sicht wird deutlich, daB es - wie schon bei der 
Wahl der MeBzeitpunkte - nur um eine mittlere Kontrolldichte gehen kann. Eine inhalt- 
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Ubersicht liber mogliche Nebenwirkungen und wichtige Fehlerquellen 

Die Anwendung diagnostischer Verfahren in der Schulpraxis kann zum einen padagogisch 
bedenkliche Folgen nach sich ziehen. Zum anderen kann die Giite der Urteilsbildung - in 
erster Linie bei den “weichen” Verfahren - durch systematische Fehler beeintrachtigt sein. 
In der Literatur werden zahlreiche Fehlerquellen beschrieben und nach unterschiedlichen 
Gesichtspunkten geordnet. Die hier behandelte Auswahl fafit fur die Schulpraxis wichti- 
ge Aspekte zusammen: 

(1) Problematische Nebenwirkungen 

(a) Orientierung des Unterrichts an Priifungen (Riickbindungseffekte) 

(b) Leistungsdruck und Belastung des sozialen Klimas (Sozialpsychologische 
Effekte) 

(c) Fragwiirdige Erfolgs- und MiGerfolgszuschreibung (Allgemeine Attribuie- 
rungsprobleme) 

(2) Inferenzfehler und Einstellungseffekte 

(a) Fragwiirdige Ursachenerklarung (spezielle Attribuierungsfehler) 

(b) Selektive Informationsaufnahme (Erwartungseffekte) 

(3) Theoriefehler 

(a) Fragwiirdige Deutung dominanter Merkmale (Haloeffekte) 

(b) Fragwiirdige Personlichkeitstheorie (Logische Fehler) 

(4) Erinnerungs- und Urteilsfehler 

(a) Reihenfolgewirkungen bei der Informationsaufnahme (Positionseffekte) 

(b) Akzentuierung von Unterschieden (Kontrasteffekte) 

(c) Einengung des Urteilsspektrums (Urteilstendenzen, Referenzfehler) 

Wie andere, ist auch dieser Qrdnungsansatz nicht iiberschneidungsfrei. 



lich vollstandige diagnostische Abdeckung anzustreben, ware didaktisch von vomher- 
ein widersinnig. 

Die Gefahren der Riickbindung des Unterrichts an die Diagnostik lassen sich in der 
Regel durch eine bedachtsame Dosierung der Kontrollen in padagogisch vertretba- 
ren Grenzen halten. Soweit die Zahl und die zeitliche Staffelung etwa von Klassenar- 
beiten nicht vorgeschrieben sind, bleibt das, was in diesem Zusammenhang angemes- 
sen ist, Faustregeln und dem padagogischen “AugenmaB” der Lehrer und 
Schulpsychologen iiberlassen. Fiir die deutschen Verhaltnisse direkt verwertbare For- 
schung gibt es dazu kaum (vgl. Schneider, 1987). 

(b) Sozialpsychologische Effekte 

Der padagogisch-psychologischen Leistungsmessung wird gelegentlich vorgehalten, 
sie erzeuge Konkurrenzverhalten und Gruppendruck zwischen den Schiilern, sie hem- 
me den Lernfortschritt durch Stigmatisierung und Auslosung von Angstgefiihlen, sie 
fordere unlautere Praktiken (Mogeln) und trage zur Neurotisierung einzelner Schil- 
ler sowie des padagogischen Klimas bei. Solche Begleiterscheinungen, die besonders 
der gruppennorm-orientierten Leistungsriickmeldung angelastet werden, sind natiir- 
lich ernst zu nehmen, wo sie auftreten. Welche Bedeutung ihnen in der Schulpraxis 
insgesamt zukommt, ist schwer einzuschatzen, weil es auch dazu an verwertbaren 
Forschungsergebnissen mangelt. 
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Wie Schulnoten mit der Riickmeldung iiber Leistung und Verhalten auch als An- 
reiz wirken sollen, konnen und sollen Testergebnisse selbstverstandlich den motiva- 
tionalen Zustand der Adressaten beeinflussen: bei den Schiilem, den Lehrem und den 
Eltern. Die nachteiligen Nebeneffekte, die von Noten wie von Testergebnissen aus- 
gelost werden konnen, gehen nicht auf die diagnostische Information oder Methodik 
als solche zuriick; sie ergeben sich erst aus dem Verwertungszusammenhang (wie z.B. 
beim Numerus clausus), bzw. aus dem padagogischen Umgang mit der Information 
in Schule und Elternhaus. Sie sind kein stichhaltiges Argument gegen eine valide 
Diagnostik. Unerwiinschte Begleiterscheinungen dieser Art zu vermeiden oder auf- 
zufangen, ist daher nicht primar ein diagnostisches sondern ein (i.e.S.) padagogisches, 
u.U. ein bildungspolitisches Problem. 

So sollten Lehrer beispielsweise bei schwacheren Schiilem einseitig gruppennorm-orien- 
tierte Leistungsmckmeldung vermeiden (Rheinberg, 1980). Angesichts der vielen Bedingun- 
gen, die die Wirksamkeit von Lob und Tadel beeinflussen, sind andrerseits aber auch “para- 
doxe” Wirkungen zu beachten, die vor allem gutgemeintes Lob nach sich ziehen kann, wenn 
namlich bei Schiilem der Eindmck entsteht, sie wiirden gelobt, weil sie es ihrer Begabungs- 
schwache wegen besonders notig hatten (W.U. Meyer, 1984; Meyer et al., 1988; Rheinberg & 
Weich, 1988; Blickle, 1991). Diese Art der Sanktionsverarbeitung, die man nach der Berliner 
Redensart als Nachtigall-Effekt bezeichnen kann, kommt vermutlich seltener vor, als zunachst 
angenommen (Hofer & Pikowsky, 1988). Sie wird sich am ehesten durch eine wohlwollend- 
sachliche und verstandnisvolle, aber von personlicher Sympathie-/Antipathiebekundung freie 
Riickmeldung im Sinne von Tausch & Tausch (1973) umgehen lassen. 



(c)Allgemeine Attribuierungsprobleme 

Lehrzielorientierte diagnostische Verfahren sind banalerweise curricular umso vali- 
der, je enger die Orientierung an den Lehrzielen ist, deren Realisierung sie kontrol- 
lieren sollen. Die iiblichen von Lehrem konzipierten Klassenarbeiten haben den Vor- 
teil, daB sie dem tatsachlichen Unterrichtsverlauf angepaBt werden konnen. Dies ist 
bei standardisierten Testverfahren in der Regel nicht moglich. Dem Vorzug der gro- 
Beren Flexibility der Klassenarbeiten steht der Nachteil gegenuber, daB ihre 
instrumentelle Giite nicht bekannt ist. Nachteil der meisten verfiigbaren Tests ist ihre 
Starrheit. Sie konnen weder die didaktischen Freiraume des Lehrers bei der Unter- 
richtsgestaltung vollstandig beriicksichtigen, noch unvorhergesehene Abweichungen 
vom geplanten Verlauf des Unterrichts auffangen. Sie erfassen Schulleistungen auf 
dem Niveau von Grobzielen in Form von Fakten- und Regelwissen und auf Feinziel- 
ebene durch eine representative Auswahl von Aufgaben, die zu ihrer Losung nicht nur 
Behalten voraussetzen, sondern einen Lerntransfer erfordem, weil sie in genau die- 
ser Form im Unterricht nicht vorgekommen sind. 

Schulleistungstests lassen jedoch valide Aussagen iiber Schuler hochstens in dem 
MaBe zu, wie der erteilte Unterricht seinerseits als lehrzielvalide gelten kann. Dies 
ist zu beachten, wenn die Testergebnisse, wie iiblich, den Schiilem attribuiert wer- 
den sollen. Lehrziele und Lehreffekte miissen auseinandergehalten werden, weil sie 
auf verschiedene Weise divergieren konnen. Im Verhaltnis der erklarten Lehrziele zum 
realisierten Unterricht sind theoretisch fiinf Falle moglich: 

(a) Das Lehrziel ist im realisierten Unterricht iiberhaupt nicht enthalten 

(b) das Lehrziel ist teilweise realisiert 

(c) das Lehrziel ist teilweise, auBerdem ist noch anderes realisiert 
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(d) das erklarte Lehrziel und der realisierte Unterricht stimmen vollstandig iiberein 
und 

(e) das Lehrziel ist vollstandig, daneben ist noch anderes realisiert. 

Bei den “Fremdanteilen” kann es sich um implizite informelle Aspekte des Unter- 
richts (“heimlicher Lehrplan”) oder um nachtragliche Zusatze handeln. Bereits bei der 
empirischen Validierung und Normierung von Schulleistungstests muB die Lehrziel- 
validitat des Unterrichts gewahrleistet sein, an dem die Analyse vorgenommen wird 
(vgl. Tent & Waldow, 1984). Werden Testergebnisse zu wichtigen Entscheidungen 
iiber Schuler herangezogen, ist jeweils “nach bestem Wissen” abzuwagen, wie gut der 
Unterricht didaktisch gelungen ist, und wieweit er etwa durch auBere Umstande, z.B. 
Unterrichtsausfall oder Storungen, belastet war. 



10.7.2 Inferenzfehler und Einstellungseffekte 

(a) Spezielle Attribuierungsfehler 

Ereignisse, Verhalten und Leistungen auf Ursachen zuriickzufuhren, entspricht offen- 
bar einer tief verwurzelten Denkgewohnheit. Es erscheint uns selbstverstandlich, 
Schulleistungen kausal zu betrachten. Vereinfacht dargestellt, spielen bei der subjek- 
tiven Erklarung des Zustandekommens der Leistung von Personen nach Weiner (vgl. 
1984) vor allem vier Klassen von Determinanten eine Rolle. Sie unterscheiden sich 
zum einen danach, ob sie der Person oder den auBeren Umstanden zugeordnet wer- 
den, zum anderen danach, ob sie als eher stabil oder eher variabel gelten (Tabelle 
10 . 1 ). 

Tabelle 10.1: Schema der subjektiven Determinanten personaler Leistungen (in An- 
lehnung an Weiner, 1984, S. 270). 





Lokalisiemng 


Stabilitatsgrad 


internal 


external 




Eigenschaften 


(vermutete oder 


eher stabil 


Fahigkeiten 


tatsachliche) Auf- 




“Begabung" 


gabenschwierigkeit 




Aktuelle Motivation 


“Zufall” 


eher variabel 


(Anstrengung, Stint- 


(Gliick, Pech) 




mungslage) 






Gesundheitszustand 





Dieses Attribuierungsschema kann nicht nur - sofern sie alt genug dazu sind - von 
Schiilern genutzt werden, um sich und anderen Erfolg oder Versagen in der Schule 
zu erklaren, es kommt auch dem Erklarungsmuster entgegen, mit dem Lehrer auf ver- 
schiedenen Abstraktionsebenen versuchen, sich Schiilerleistungen verstandlich zu 
machen (vgl. Hofer, 1986, Kap. 7 und 8). Es liegt auf der Hand, daB dabei immer dann 
mit Fehlschlussen gerechnet werden muB, wenn die Qualitat der Beobachtungsdaten, 
auf die man sich stutzt, zu wunschen iibrig laBt oder unbekannt ist. Dies betrifft ins- 
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besondere die Beurteilung miindlicher Leistungen und des Sozialverhaltens. Die Fol- 
gen konnen umso bedenklicher sein, je hoher das Abstraktionsniveau der Inferenz. Die 
Gefahr besteht vor allem darin, Schtilem ohne ausreichende Grundlage abstrakte 
Fahigkeiten und Eigenschaften, also Personlichkeitsmerkmale i.e.S., zuzuschreiben 
und damit bestimmte Erwartungen an ihr kiinftiges Verhalten zu verkniipfen. 

Demgegeniiber ist daran zu erinnern, daB Schulleistungsdiagnosen zunachst nur 
deskriptive Informationen iiber merkmalsspezifische Ist-Zustande liefern. Annahmen 
iiber die Stabilitat des betreffenden Merkmals und kiinftige Leistungen sind nur in 
dem MaBe zulassig, wie dies durch wiederholte, situationsiibergreifende Beobach- 
tung, bzw., im Fall standardisierter Testverfahren, durch die empirische Retest-Relia- 
bilitat und Validitat abgedeckt ist. Weitergehende “kausale” Erklarungen, z.B. fur 
Schulversagen, sind allenfalls moglich, soweit sich dafiir aus der Vorgeschichte und 
aus den Lebensumstanden des Schulers Anhaltspunkte fur begriindete Vermutungen 
ergeben, z.B. Krankheiten, Unfalle, Deprivation oder besondere “Schliisselerlebnis- 
se” (life events). 



(b) Erwartungseffekte 

Die Verhaltens- und Leistungserwartungen, die Lehrer aufgrund fehlerhafter Zu- 
schreibungen entwickeln, konnen sich dadurch verfestigen, daB in der Folge bevor- 
zugt solches Schiilerverhalten “wahrgenommen’' wird, das der Erwartung entspricht, 
wahrend andere Verhaltenselemente ausgeblendet werden. Uber die Riickmeldung 
seiner Erwartungen an den Schuler kann der Lehrer u.U. bewirken, daB das erwartete 
Verhalten tatsachlich vermehrt gezeigt wird. Man spricht hier von “sich selbst erfiil- 
lenden Vorhersagen” (self-fulfilling prophecies), die auf der Grundlage selektiver 
“Person-Wahmehmung’' oder, genauer, auf der Grundlage einseitiger kognitiver In- 
ferenz aus Wahrnehmungsdaten oder Informationen durch Dritte zustandekommen. 
Dieses Phanomen wird im AnschluB an Rosenthal und Jacobson (1968, 197 1; Rosen- 
thal, 1975) auch Pygmalion-Effekt genannt. Es kann sich nicht nur auf Leistungsva- 
riablen sondern auch auf Verhaltenstereotype und “charakterliche" Merkmale erstrek- 
ken (vgl. Ludwig, 1991). An diagnostische Artefakte dieser Art ist besonders zu 
denken, wenn die Konsequenzen fur den Betroffenen gravierend sind, etwa bei pra- 
ventiven Risikoprognosen (Krapp, 1986, S. 628-630). Nach der Definition von Lern- 
behinderung ist es z.B. zulassig. Kinder bereits in die Sonderschule einzuweisen, 
wenn ein langerdauemdes und umfassendes Versagen in der Regelschule zu erwar- 
ten ist. Dabei ist in diesem Fall fraglich, ob die Sonderschule tiberhaupt eine padago- 
gisch bessere Behandlungs-Altemative darstellt (Tent, Witt, Zschoche-Lieberum & 
Burger, 1991). 

Der Pygmalion-Effekt kann als Spezialfall der allgemeinen Tendenz zur Bestati- 
gung von Hypothesen bei der Urteilsbildung gelten (confirmation bias). Sie begiin- 
stigt die hypothesenkonsistente Auswahl und/oder Verarbeitung von Informationen 
und erhoht dadurch die Wahrscheinlichkeit, eine Hypothese als bestatigt anzusehen 
(Hager & WeiBmann, 1991). 

In welchem MaBe tatsachlich mit Pygmalion-Effekten zu rechnen ist, laBt sich 
kaum vorhersagen, weil die Entstehungsbedingungen vielfaltig sind und wenig ein- 
heitlich erscheinen. Sie treten vermutlich umso eher auf, je intensiver die Erwartung 
ist und je weniger andere Informationen neben den erwartungsweckenden zur Verfii- 
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gung stehen (zur Forschungslage vgl. Hofer, 1986, Kap. 8; Chow, 1990). Obwohl man 
nicht davon ausgehen muB, daB diese Effekte stark verbreitet sind, sollten diagnosti- 
sche Aussagen hohen Abstraktionsniveaus auch deswegen nur gemacht werden, wenn 
man sich auf dafiir geeignete Verfahren stiitzen kann. Fehlt es daran, beschrankt man 
sich besser auf die Wiedergabe des beobachteten Verhaltens (z.B. statt “Peter ist ein 
Lugner": “Peter hat bei dieser und jener Gelegenheit dieser oder jener Person gegen- 
iiber aus diesem oder jenem Grund die Unwahrheit gesagt oder verschwiegen, was er 
wuBte”). Die verbale Fassung ist zwar umstandlicher als die nominale, entspricht aber 
der Erkenntnislage. 



10.7.3 Theoriefehler 

Fehler dieser Art beruhen auf ungepriiften Annahmen iiber psychologische oder logi- 
sche Zusammenhange zwischen Merkmalen. Sie werden daher auch als Korrelations- 
fehler bezeichnet (Kleiter, 1973). Die Annahmen konnen Bestandteil naiver (exploi- 
ter oder impliziter) Theorien iiber Aufbau und Funktionieren der Personlichkeit sein. 

(a) Halo- oder Hof-Effekte 

Von Haloeffekt wird gesprochen, wenn hinsichtlich einzelner beurteilter Personen ein 
eindrucksmaBig vorherrschendes (“dominantes”) Merkmal die vom Betrachter wahr- 
genommene Auspragung anderer Merkmale beeinfluBt, so wenn ein Fehrer z.B. bei 
einem “faulen” Schuler festzustellen glaubt, daB er “desinteressiert”, “willens- 
schwach” oder auch “minderbegabt” sei. Unabhangig von der objektiven Sachlage 
strahlt die Etikettierung “faul” bei der Urteilsbildung auf andere Merkmale aus. 

(b) Logische Fehler 

Mit dem Halo-Effekt verwandt, aber theoretisch davon zu unterscheiden, ist der so- 
genannte logische Fehler, der zu vergleichbaren Konsequenzen fiihrt, weil der Beur- 
teiler z.B. aufgrund einer impliziten Personlichkeitstheorie annimmt, daB bestimmte 
Merkmale allgemein eng miteinander zusammenhangen (zu den Personlichkeitstheo- 
rien von Lehrern s. Bender, 1985; Hofer, 1986). Unter impliziter Personlichkeitstheo- 
rie wird die Gesamtheit der Annahmen verstanden, die jemand iiber die Zusammen- 
hange und die Organisation von Eigenschaften bei anderen Menschen besitzt (Hofer, 
1986, S. 71). Nach einer solchen Logik verwandte Merkmale werden dann ohne wei- 
tere Beobachtung des Einzelfalls generell ahnlich bewertet. So gibt es z.B. Annah- 
men iiber die Koppelung von gutem Aussehen mit Freundlichkeit und Energie oder 
von Freundlichkeit mit GroBziigigkeit und Optimismus. Die volkstiimlich-naive Trias 
“dumm, dreist und gefraBig” ist ein weiteres Beispiel dafiir. Es kann aber auch auf- 
grund struktureller Ahnlichkeit der Unterrichtsfacher angenommen werden, daB z.B. 
Schiller, die in Mathematik gut sind, auch in Physik iiberdurchschnittlich abschnei- 
den muBten. - Logische Fehler konnen z.B. durch die raumliche Nahe vorgegebener 
Kategorien in Beurteilungsbogen begiinstigt werden, d.h. die Korrelation zwischen 
zwei Kategorien kann hoher ausfallen, wenn sie unmittelbar aufeinander folgen, als 
wenn sie raumlich getrennt sind (Nahe-Effekt, proximity-error). 
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10.7.4 Erinnerungs- und Urteilsfehler 

Soweit diagnostische Urteile auf der Beobachtung von Verhalten und der Einschat- 
zung von Leistungen beruhen, konnen die Ergebnisse auch durch eine Reihe hetero- 
gener Effekte verfalscht sein, die vor allem in der Sozialpsychologie beschrieben 
worden sind und haufig als Beobachtungs- oder Urteilsfehler zusammengefaBt wer- 
den. 

Unter den iiblichen Bedingungen des Schulunterrichts haben Lehrer fast standig 
eine Vielzahl von Schiilern gleichzeitig “im Auge zu behalten”. Sie miissen groBe 
Mengen an Information aufnehmen, speichern und verarbeiten. Natiirlich konnen sie 
bei weitem nicht alles wahrnehmen und behalten, was fur ihre diagnostische Urteils- 
bildung belangvoll sein konnte. Sie konnen dem gesamten Verhaltensspektrum ihrer 
Schuler immer nur Stichproben entnehmen, auch wo sie sich auf den einzelnen kon- 
zentrieren. Die Entnahme wird offensichtlich von zahlreichen, nur begrenzt kontrol- 
lierbaren Faktoren beeinfluBt, wie Vorkenntnisse, Einstellungen, Werte und Erwartun- 
gen. Art und Bedeutung der Merkmale, sozialer Kontext und aktuelle Bediirfnisse. 
Wieweit die Beobachtungs-Stichproben jeweils reprasentativ sind, laBt sich in der 
Praxis kaum feststellen. Doch hangt von der Qualitat der Stichproben die Genauig- 
keit ab, mit der die didaktischen Entscheidungen des Lehrers der padagogischen Si- 
tuation gerecht werden konnen. Erfahrene Lehrer sind deshalb bemuht, “Stichproben- 
fehler” der hier gemeinten Art gering zu halten, indem sie sich z.B. zur Regel machen, 
jeden Schuler in jeder Unterrichtsstunde mindestens einmal zu Wort kommen zu las- 
sen. 

Neben der irreprasentativen Stichprobenentnahme (Beobachtungsfehler i.e.S. ) 
sind hauptsachlich folgende Fehlerquellen zu beachten: 

(a) Serielle Positionseffekte 

Diese aus der Gedachtnispsychologie bekannten Effekte besagen, daB Informationen, 
die zu Beginn oder gegen Ende einer Informationsabfolge aufgenommen werden, 
besser im Gedachtnis haften als die in der Mitte befindlichen (Anfangs- und Endbe- 
tonung; primacy-recency-effects). An solche Effekte ist z.B. bei der Bewertung miind- 
licher Priifungsleistungen und langerer Beitrage im Unterricht zu denken. 

(b) Kontrasteffekte 

Hier geht es um eine andere Art von Reihenfolge-Effekt. Vor allem die Urteile iiber 
die Leistung in aufeinanderfolgenden mundlichen Priifungen konnen davon beein- 
fluBt werden, ob der Priifung eines Kandidaten eine “gute” oder eine “schwache” 
Priifung vorangegangen ist. Der Kontrasteffekt besteht darin, daB die Leistungsun- 
terschiede in den Urteilen starker akzentuiert werden, als objektiv gerechtfertigt ware 
(vgl. Birkel, 1978). Grundsatzlich gilt dies auch fur die fortlaufende Korrektur schrift- 
licher Arbeiten. 

Im AnschluB an Murray (1938) wird als Kontrastfehler auBerdem die Tendenz von 
Beurteilern bezeichnet, Beurteilten Merkmale oder Merkmalsauspragungen zuzu- 
schreiben, die den eigenen Ziigen entgegengesetzt sind. 
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(c) Urteilstendenzen 

Damit ist in erster Linie die Neigung von Beurteilern gemeint, das Urteilsspektrum 
einzuschriinken, d.h. entweder gehauft giinstige oder gehauft ungiinstige Urteile ab- 
zugeben, bzw. extreme Urteile zu vermeiden und die mittleren iiberproportional zu 
bevorzugen. Man spricht dann von Milde-Effekt (leniency-effect; generosity-error), 
bzw. von Strenge-Effekt und von der Tendenz zur Mitte (error of central tendency). 
Sind in den Urteilen beide Extreme iiber- und die mittleren Werte unterreprasentiert, 
kann eine Tendenz zur Schwarz-WeiB-Malerei (Cronbach, 1970) vermutet werden. 
Solche systematischen Unterschiede in der Urteilsverteilung konnen u.a. darauf zu- 
rtickgehen, daB Beurteiler unterschiedliche VergleichsmaBstabe anlegen, d.h. daB sie 
ihre Urteile an unterschiedlichen Referenzpopulationen orientieren. Man spricht des- 
halb auch von Referenzfehlern (Kleiter, 1973). 

Bei der Verwertung diagnostischer Schatzurteile - dies betrifft fast alle Schulnoten 
- muB auf derartige Unterschiede in der Beurteilungspraxis etwa zwischen Lehrem, 
Schulen oder Fachern geachtet werden; So fallen z.B. juristische Staatsexamen (bei 
hoher Durchfall-Quote) traditionell “schlechter” aus als andere AbschluBpriifungen, 
in denen ein “Gut” bereits unter dem empirischen Durchschnitt liegen kann. Bekannt 
sind auch die unterschiedlichen Notenverteilungen bei den Schulfachern Religion und 
Kunst auf der einen und z.B. Latein und Mathematik auf der anderen Seite. 

Wie bei den Attribuierungsfehlern und den Erwartungseffekten sind die Entstehungs- 
bedingungen fur die Urteilsfehler vielfaltig. Man kann die Fehler zumindest partiell 
iiber die Schatzung ihres Beitrags zur Urteilsvarianz korrigieren und diesen Anted 
durch Anleitung der Beobachter und Beurteiler zu groBerer Wahrnehmungsscharfe 
und begrifflicher Prazision verringem (Hasemann, 1983; Hager & WeiBmann, 1991). 
Man wird sie aber nicht vollig ausschalten konnen. Als Bestandteil sozialer Kogniti- 
on gehen sie unausweichlich in die Bildung der Kategorien ein, in die wir gewohnt 
sind, Gegenstande, Ereignisse und Menschen einzuordnen. Aufnahme und Verarbei- 
tung von Informationen sind anfallig fur Fehler, weil wir die Information zu stark ver- 
dichten miissen und wichtige Einzelheiten verloren gehen. Hinzu kommt unsere Nei- 
gung, an vorhandenen kognitiven Strukturen festzuhalten. Es sollte aber nicht 
vergessen werden, daB viele der Urteile, die wir uns iiber andere bilden, im groBen 
und ganzen zutreffen (Schneider, 1991). 

Dies gilt grundsatzlich auch fiir die kognitiven Prozesse, mit denen Lehrer von 
beobachtetem Schiilerverhalten auf zu Grunde liegende Personlichkeitsmerkmale 
schlieBen. Lehrer gehen im Unterricht durchaus differenziert auf die unterschiedli- 
chen Verhaltensmuster ihrer Schiller ein. Allerdings ist die Genauigkeit, mit der sie 
ihre Eindriicke bilden, bei Personlichkeitsaspekten geringer als bei Leistungsaspek- 
ten, und erwartungsgemaB unterscheiden sich Lehrer danach, welche Merkmale sie 
besser und welche sie weniger gut einschatzen konnen (Hofer, 1986, Kap. 3,5 und 6; 
Dobrick & Hofer, 1991). 
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Zusammenfassung 

In der padagogisch-psychologischen Diagnostik geht es im wesentlichen um die 
Feststellung inter- und intraindividueller Unterschiede auf Merkmalen, die sich dem 
Konstrukt “Schulleistung” subsumieren lassen. “Schulleistung” ist die Resultante aus 
dem Zusammenwirken einer Vielzahl von Schuler- und Schulmerkmalen. Unter Lei- 
stung wird dabei jedes Ergebnis menschlichen Handelns verstanden. Das Konstrukt 
ist operational liber die Indikatorvariablen “Lehrerurteile” und "Testwerte'' definiert, 
die in der Regel Schiilern attribuiert werden. Es um laf.lt alle Einzelmerkmale, die in- 
haltlich den verschiedenen Lehrzielen zugeordnet werden konnen und sich in Abhan- 
gigkeit von Lehrbemiihungen verandem. Im Hinblick auf die Veranderungen wird 
zwischen Ausgangs-, Ubergangs- und Endzustand unterschieden. Die MeBergebnis- 
se sind stets Ist-Werte. Die Genauigkeit, mit der Lemfortschritte diagnostiziert wer- 
den konnen, hangt von der Prazision der Planung und dem Verlauf des Unterrichts 
sowie von der Reprasentativitat der Testaufgaben bzw. der Beobachtung ab. Die Ver- 
teilung der MeBwerte wird von der curricularen Validitat des Unterrichts und vom 
MeBzeitpunkt mitbestimmt. Ftir die Wahl aufeinanderfolgender MeBzeitpunkte ist 
anzunehmen, daB eine mittlere Kontrolldichte didaktisch am niitzlichsten ist. 

Zu starre Handhabung diagnostischer Verfahren kann zu einer padagogisch be- 
denklichen Orientierung des Unterrichts an den Priifungen und damit zu einem Ver- 
lust an didaktischer Flexibility fiihren. Ungiinstige sozialpsychologische Begleiter- 
scheinungen konnen durch padagogisch sachgemaBen Umgang mit diagnostischen 
Ergebnissen vermieden oder aufgefangen werden. 

Die Fehler und Storeffekte, die vor allem die auf Personwahmehmung gestiitzten 
Eindrucksurteile verzerren konnen, sind zwar wegen des Handlungsdrucks und der 
notwendigen Informationsverdichtung nicht ganz zu vermeiden, lassen sich aber 
durch Training reduzieren. 



Einfiihrende Literatur zu 10.7: 

Preiser, S. (1979). Personwahmehmung und Beurteilung. Darmstadt: Wissenschaftl. 
Buchgesellschaft. 



Weiterfiihrende Literatur: 

Bierhoff, H.W. (1986). Personenwahrnehmung. Vom ersten Eindruck zur sozialen 
Interaktion. Berlin: Springer. 

Fiske, S.T. & Taylor, S.E. (1991). Social Cognition. New York: McGraw-Hill. 




11. Berufsethische und rechtliche Aspekte 



1 . Welche Giitestandards und ethischen Grundsatze sind bei diagnostischen MaB- 
nahmen zu beachten? 

2. Wer ist fur die sachgerechte Durchfiihrung verantwcHtHcb? 

3. Welche Rechtsvorschriften regeln die Anwendung diagnostischer Verfahren 
in der Schule? 

4. Wie konnen diagnostische MaBnahmen rechtlich uberpriift werden? 

5. Was ist bei der Durchfiihrung wissenschaftlicher Untersuchungen in Schuleii 
zu beachten? 



Vorstrukturierende Lesehilfe 

Die diagnostische Tatigkeit ist ein wesentlicher Bestandteil des professionellen Han- 
delns von Lehrern und Psychologen. Sachlogik und Berufsethos verlangen, daB sie 
hohen Anspriichen geniigt. Was die Psychologen betrifft, setzt die Berufsordnung fiir 
Psychologen des Berufsverbandes Deutscher Psychologen von 1986 dafiir fachliche 
und ethische MaBstabe. Sie enthalt Richtlinien, an denen sich auch die Padagogisch- 
psychologische Diagnostik orientieren sollte. 

Dariiber hinaus unterliegt die diagnostische Praxis der rechtlichen Bewertung 
durch Gesetzgeber, Verwaltung und Gerichte. Soweit sie von Lehrern und Psycholo- 
gen im offentlichen Dienst vorgenommen wird, gehort die diagnostische Beurteilung 
des Verhaltens und der Leistungen von Schulem zu den Dienstpflichten und ist damit 
Teil des staatlichen Verwaltungshandelns, das durch arbeits-, dienst- und beamten- 
rechtliche Vorschriften weitgehend geregelt ist. 

Aber auch da, wo noch keine speziellen Rechtsvorschriften bestehen, ist die Pad- 
agogisch-psychologische Diagnostik in die allgemeine Rechtsordnung eingebunden. 
Das Grundgesetz fiir die Bundesrepublik Deutschland von 1949 steckt den Rahmen 
des diagnostisch Zulassigen ab. Einzelne diagnostische MaBnahmen und darauf ge- 
stiitzte Entscheidungen konnen gerichtlich uberpriift und von den zustandigen Fach- 
aufsichts-Behorden kontrolliert werden. Die empirische Forschung an Schulen wirft 
besondere padagogische und rechtliche Probleme auf. 



11.1 Berufsethische Anforderungen 

Praktische Diagnostik ist kein Selbstzweck. Wie alles menschliche Handeln ist sie 
stets und selbstverstandlich in gesellschaftliche Zusammenhange eingebunden. Sie 
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wird von ihnen mitbestimmt und wirkt auf sie zuriick. Sie dient unterschiedlichen 
Zwecken, die sich ihrerseits unterschiedlich bewerten lassen. Auch deshalb bedarf sie 
der rationalen Begriindung. Wo sie mit Wertvorstellungen und Rechtsgiitern in Kon- 
flikt geraten kann, bedarf sie dariiber hinaus der Legitimation. Als ein von Werten und 
Zwecken bestimmtes Handeln hat sie wie jede Berufsausiibung eine ethische Dimen- 
sion. Sie laBt sich nach Qualitatskriterien beurteilen, die angeben, wie gearbeitet 
werden soil, was zulassig und sittlich richtig ist, bzw. was als unzulassig oder mora- 
lisch verwerflich (wenn nicht ungesetzlich) gilt. 

In diesem Sinne sind berufsethische Richtlinien untergesetzliche Normen, die den 
Berufsangehorigen verpflichten, bestimmte Gtitestandards einzuhalten und Regeln fur 
den Umgang mit Personen, Sachen und Informationen zu befolgen. Sie kniipfen an 
die besonderen Aufgaben und Ziele des Berufs an und leiten aus der damit verbunde- 
nen Verantwortung zumeist auch ab, in welchem Geiste, d.h. mit welcher Grundein- 
stellung und moralischen Gesinnung der Beruf ausgeiibt werden soli. Ein bekanntes 
friihes Beispiel fur solche Leitsatze ist der dem Hippokrates zugeschriebene “Eid" der 
Arzte (5./4. Jahrh. vor unserer Zeitrechnung). Bei uns gibt es fur Lehrer und Psycho- 
logen bis jetzt keine allgemein verbindlichen Regelwerke dieser Art. Auf Richtziel- 
ebene haben die Lehrer und die im Erziehungsbereich tatigen Psychologen, wie an- 
dere Fachleute, dem Wohl des einzelnen und der Gesellschaft zu dienen. Sie haben, 
plakativ gesagt, einen gesellschaftlichen Auftrag zu eiTullen, und sie stehen in der Ver- 
antwortung vor der nachwachsenden Generation. 

In der Erziehungswissenschaft gehen die Auffassungen iiber die padagogische 
Ethik sowie iiber das Berufsethos der Lehrer und dessen Stellenwert auseinander (ein- 
fiihrend Wigger, 1990). Da der Lebenslauf und der berufliche Werdegang fast aller 
Burger durch padagogische Entscheidungen wesentlich beeinfluBt werden, erscheint 
es einleuchtend, zur Verwirklichung des Erziehungsauftrags der Schule von Lehrem 
ein hohes professionelles Ethos zu verlangen (Brezinka, 1986). Nach verbreiteter 
Ansicht darf sich der Lehrer nicht nur als staatlich alimentierter Stundengeber ver- 
stehen. Es wird erwartet, daB er sich in besonderer Weise engagiert und in seinem 
Beruf mehr sieht als einen “Job wie jeder andere.” Ganz gleich wie man zu solchen 
Forderungen steht, es laBt sich nicht bezweifeln, daB die mehr oder weniger selbst- 
verstandlichen Giitestandards fur padagogisches Handeln auch fur den diagnostischen 
Ausschnitt gelten, und zwar unabhangig davon, ob dies in den didaktischen Handrei- 
chungen. Curricula und Dienstanweisungen jeweils explizit angefuhrt wird oder nicht. 
Diese Maxime ergibt sich schon aus dem Anspruch auf Wissenschaftlichkeit des Vor- 
gehens und aus der immanenten Sachlogik: Wie bereits dargelegt, kann padagogisches 
Handeln insgesamt nicht besser sein als die Diagnose der padagogischen Zustande, 
auf deren Veranderung es sich richtet. 

Auch in der Psychologie werden berufsethische Fragen aus z.T. kontroverser Sicht 
diskutiert. Die psychologische Diagnostik ist davon besonders betroffen (vgl. z.B. 
Hartmann & Haubl, 1984; Jager, 1986). Doch stellt sich die Lage fur die Psycholo- 
gen insgesamt einheitlicher und konkreter dar als bei den Padagogen. Der Berufsver- 
band Deutscher Psychologen hat 1986 eine von breitem Konsens getragene “Berufs- 
ordnung fur Psychologen" erlassen konnen, die an die Stelle der “Berufsethischen 
Verpflichtungen” von 1967 getreten ist. Soweit sie nicht hoherrangige Rechtsvor- 
schriften aufnimmt, bindet sie allerdings nur die im Verband freiwillig zusammenge- 
schlossenen Mitglieder. Anderen Psychologen kann sie als Orientierungshilfe dienen, 
solange und soweit sie nicht z.B. durch ein Psychologengesetz uberholt wird. Sie 
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enthalt eine Reihe allgemeiner Bestimmungen, die die diagnostische Tatigkeit mit- 
betreffen, und einige. die sich direkt darauf beziehen (s. Kasten). 



Auszug aus der Berufsordnung fur Psychologen 

(Berufsverband Deutscher Psychologen. Bonn, 1986). 

1. Praambel 

1. Beruf 

Die Aufgabe des Psychologen ist es, das Wissen iiber den Menschen zu vermehren und 
seine Erkenntnisse und Fahigkeiten zum Wohl des Einzelnen und der Gesellschaft ein- 
zusetzen. Er achtet Wlirde und Integritat des Individuums und setzt sich fur die Erhal- 
tung und den Schutz fundamentaler menschlicher Rechte ein. Der Beruf des Psycholo- 
gen ist seiner Natur nach frei. 

2. Verantwortung 

Der Psychologe ist verpflichtet, seinen Beraf gewissenhaft auszuliben und dem Vertrau- 
en, das ihm in seiner Berafsausubung entgegengebracht wird, zu entsprechen. Er muB 
sich stets der sozialen Verantwortung bewuBt sein, die sich daraus ergibt, daB seine Ta- 
tigkeit dazu geeignet ist, auf das Leben anderer in besonderer Weise einzuwirken. Der 
Psychologe anerkennt das Recht des Individuums, in eigener Verantwortung und nach 
seinen eigenen Uberzeugungen zu leben, und bemtiht sich in seiner beruflichen Tatig- 
keit urn Sachlichkeit und Objektivitat. Er ist wachsam gegeniiber personlichen, sozia- 
len, institutionellen, wirtschaftlichen und politischen Faktoren und Einfllissen, die zu 
einem MiBbrauch bzw. einer falschen Anwendung seiner Kenntnisse und Fahigkeiten flih- 
ren konnten. 

3. Kompetenz 

Verantwortliches bemfliches Handeln erfordert hohe fachliche Kompetenz. Der Psycho- 
loge ist verpflichtet, sich durch Fortbildung liber den jeweiligen Stand der Wissenschaft 
in Kenntnis zu setzen. Er hat sich dabei auch liber die flir seine Berafsausubung gelten- 
den Vorschriften zu unterrichten. Der Psychologe bietet nur Dienstleistungen an, fiir deren 
Erbringung er durch Ausbildung und fachliche Erfahrang qualifiziert ist. Er orientiert 
sich dabei an wissenschaftlichen und fachlichen Standards und bedient sich entsprechend 
iiberprlifter und anerkannter Methoden. Er halt sich an den Grandsatz der wissenschaft- 
lichen Redlichkeit und iiberpriift den Erfolg seiner Arbeit. Psychologische Aufgaben 
iibernimmt er nur, wenn er die damit verbundenen Verpflichtungen einhalten kann. Auf- 
grund seiner Kompetenz handelt der Psychologe in psychologischen Sachfragen eigen- 
verantwortlich und selbstandig. 

(...) 

III. Stellung zu Klienten/Patienten 

(...) 

2. Aufklarungspflicht 

Der Psychologe hat seinen Klienten/Patienten iiber alle wesentlichen MaBnahmen und 
Behandlungsablaufe zu unterrichten. (...) 

IV. Stellung zu Kollegen und anderen Berufsgruppen 

(...) 
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2. Verhaltnis zu Angehorigen anderer Berufe 

(1) Der Psychologe ist in der Zusammenarbeit mit Angehorigen anderer Berufe loyal, 
tolerant und hilfsbereit. Er kennt keine standespolitischen Grenzen und arbeitet mit an- 
deren Berufen zusammen. 

(...) 

(4) Angestellte oder beamtete Psychologen haben bei Begriindung eines Dienstverhalt- 
nisses auf ihre eigenverantwortliche Berufsauslibung hinzuweisen, insbesondere auf die 
ihnen kraft Gesetzes obliegende Schweigepflicht. 

(...) 

VII. Umgang mit Daten 
Schweigepflicht 

(1) Der Psychologe ist verpflichtet, iiber alle ihm in Ausubung seiner Berufstatigkeit 
anvertrauten und bekannt gewordenen Tatsachen zu schweigen (§ 203 StGB), soweit nicht 
das Gesetz Ausnahmen vorsieht oder ein bedrohtes Rechtsgut uberwiegt. 

(2) Die Schweigepflicht des Psychologen besteht auch gegenuber Familienangehori- 
gen des Klienten/Patienten und gegenuber Vorgesetzten. 

(...) 

VIII. Ausstellung von Gutachten und Untersuchungsberichten 

1. Sorgfaltspflicht 

Allgemein gilt, daB die Erstellung und Verwendung von Gutachten und Untersuchungs- 
berichten vom Psychologen groBtmogliche Sachlichkeit, Sorgfalt und Gewissenhaftig- 
keit erfordert. Gutachten und Untersuchungsberichte sind frist- und formgerecht anzu- 
fertigen. 

2. T ransparenz 

Gutachten und Untersuchungsberichte miissen flir den Adressaten inhaltlich nachvoll- 
ziehbar sein. 

3. Einsichtnahme 

(1) Sind Auftraggeber und Begutachteter nicht identisch. kann das Gutachten bzw. der 
Untersuchungsbericht nur mit Einwilligung des Auftraggebers dem Begutachteten zu- 
ganglich gemacht werden. 

(...) 



Gefordert werden u.a. Achtung der Wiirde und Integritat des Individuums, gewis- 
senhafte Berufsausiibung und VerantwortungsbewuBtsein, das Bemilhen um Sachlich- 
keit und Objektivitat sowie Wachsamkeit gegenuber Einfliissen, die zum MiGbrauch 
psychologischer Kompetenz fiihren konnen. Der Psychologe ist zur fachlichen Fort- 
bildung verpflichtet; er hat sich an wissenschaftlichen Standards zu orientieren und 
entsprechend uberpriifte und anerkannte Methoden zu verwenden. Er soli sich an den 
Grundsatz der wissenschaftlichen Redlichkeit halten, den Erfolg seiner Arbeit kon- 
trollieren und mit Angehorigen anderer Berufe loyal zusammenarbeiten. 

Flir die Erstellung und Verwendung von Gutachten und Untersuchungsberichten 
werden “groBtmogliche Sachlichkeit, Sorgfalt und Gewissenhaftigkeit” gefordert; au- 
Berdem miissen sie “fiir den Adressaten inhaltlich nachvollziehbar’' sein (VIII. 1 und 
2). Die gesetzliche Verpflichtung des Psychologen zur Wahrung von Privatgeheim- 
nissen (“Schweigepflicht”, § 203 StGB). die auch gegenuber Familienangehorigen 
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und Vorgesetzten besteht, ist ausdrucklich in den Regelkanon aufgenommen (VII. 1; 
X.2.2; s. Kasten auf dieser Seite). Soweit diagnostische Verfahren zu Forschungs- 
zwecken verwendet werden, sind die Richtlinien fur die Planung und Durchfiihrung 
empirischer Forschungsvorhaben zu beachten (X. 1 und 2; zur Ethik der psychologi- 
schen Forschung s. Schuler, 1980). VerstoBe von Mitgliedem gegen die Berufsord- 
nung konnen durch das Ehrengericht des Verbandes geahndet werden (XI). 



I. Verpfiichtung des Psychologen zur Verschwiegenheit 

Zusammen mit den Angehorigen einiger anderer Berufe, wie Mediziner, Anwalte, Steu- 
erberater, Erziehungsberater, Sozialpadagogen und Versicherungsmitarbeiter, unterlie- 
gen Psychologen der Schweigepflicht. Ein VerstoB dagegen kann zu strafrechtlicher Ver- 
folgung fuhren. Das in der Bundesrepublik Deutschland gliltige Strafgesetzbuch (StGB) 
von 1871 (in der Fassung von 1987) sieht vor: 

“§ 203. LVerletzung von Privatgeheimnissen] (Auszug) 

(1) Wer unbefugt ein fremdes Geheimnis, namentlich ein zum personlichen Le- 
bensbereich gehorendes Geheimnis oder ein Betriebs- oder Geschaftsgeheimnis 
offenbart, das ihm als 
1 . (•••) 

2. Berufspsychologe mit staatlich anerkannter wissenschaftlicher AbschluBprii- 
fung. (...) 

6. (...) 

anvertraut worden oder sonst bekanntgeworden ist, wird mit Freiheitsstrafe bis zu 
einem Jahr oder mit Geldstrafe bestraft. 

( 2 ) (...)” 

Die Strafandrohung gilt bereits fitr Studenten; sie gilt auch nach dem Tod der Verpflich- 
teten und der Verletzten: 

“(3) Den in Absatz 1 Genannten stehen ihre berafsmaBig tatigen Gehilfen und die 
Personen gleich, die bei ihnen zur Vorbereitung auf den Beruf tatig sind. Den in 
Absatz 1 und den in Satz 1 Genannten steht nach deni Tod des zur Wahrung des 
Geheimnisses Verpflichteten ferner gleich, wer das Geheimnis von dem Verstor- 
benen oder aus dessen NachlaB erlangt hat. 

(4) Die Absatze 1 bis 3 sind auch anzuwenden, wenn der Tater das fremde Ge- 
heimnis nach dem Tode des Betroffenen unbefugt offenbart.” 

Das StrafmaB fallt hotter aus, wenn der zur Verschwiegenheit Verpflichtete sein Wissen 
“vermarktet” oder zum Schaden anderer nutzt: 

“(5) Handelt der Tater gegen Entgelt oder in der Absicht, sich oder einen ande- 
ren zu bereichem oder einen anderen zu schadigen, so ist die Strafe Freiheitsstra- 
fe bis zu zwei Jahren oder Geldstrafe.” 

Die Verletzung von Privatgeheimnissen wird nicht von Amts wegen (Offizial verfahren) 
verfolgt, sondern nur auf Antrag des Verletzten oder, nach dessen Tod, auf Antrag der 
Angehorigen oder Erben (Antragsdelikt; § 205 StGB). 

II. Kein Recht auf Zeugnisverweigerung im Strafverfahren 



Obwohl die Psychologen zur Verschwiegenheit verpflichtet sind, steht ihnen nach der 
in der Bundesrepublik Deutschland giiltigen StrafprozeBordnung (StPO) von 1877 (in 
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der Fassung von 1987) nicht genereil das Recht zu, aus beruflichen Griinden das Zeug- 
nis zu verweigem. Ein solches Recht wil'd in abschlieBender Aufzahlung u.a. Geistli- 
chen, Anwalten, Steuerberatern, Arzten, Hebammen. Mitarbeitern von Beratungsstellen 
nach § 218b StGB. Parlamentsmitgliedern und Joumalisten eingeraumt; als Berufsgruppe 
sind die Psychologen bislang davon ausgenommen (§ 53 StPO [Zeugnisverweigerungs- 
recht aus beruflichen Griinden]). 

III. Verpflichtung zur Amtsverschwiegenheit 

Personenbezogene Daten sind im offentlichen Dienst auch durch das Amtsgeheimnis 
(Dienstgeheimnis) geschiitzt (Beamtengesetze; BAT). Strafrechtlich ist die Amtsver- 
schwiegenheit mit derselben Strafandrohung wie in Absatz 1 durch § 203 Absatz 2 StGB 
gesichert. Die Schweigepflicht ist hier mit dem Vertrauen in die amtliche Institution, 
statt, wie in Absatz 1, in die Angehorigen einer Berufsgruppe, begiiindet. Falls wichtige 
offentliche Interessen gefahrdet sind, konnen vorsatzliche oder fahrlassige VerstoBe 
auBerdem nach § 353b StGB [Verletzung des Dienstgeheimnisses und einer besonderen 
Geheimhaltungspflicht] verfolgt werden. 



Die doppelte Verpflichtung dem einzelnen und der Gesellschaft gegeniiber kann bei 
Psychologen wie bei Lehrem zu Konflikten fiihren, die eine Guterabwagung notwen- 
dig machen. Berufsethische Richtlinien konnen dabei Entscheidungshilfen sein; sie 
konnen und sie wollen dem Fachmann die Verantwortung nicht abnehmen. Ethische 
Regelwerke diirfen weder fachmethodische Entscheidungskalkiile ersetzen, noch kon- 
nen sie ein dartiber hinausreichendes Subsumtions-Raster fur alle denkbaren Einzel- 
falle liefern. 



11.2 Rechtsfragen 

In der Bundesrepublik Deutschland gibt es nach wie vor kein verbindliches Berufs- 
recht fur Psychologen. In der Praxis muB sich die Padagogisch-psychologische Dia- 
gnostik zum einen an allgemeinen Gesetzesnormen orientieren, die auch diagnosti- 
sches Handeln betreffen, zum anderen an besonderen Rechtsvorschriften, die fur das 
Arbeitsfeld “Schule” entsprechende Vorgaben enthalten. 

In diesem Zusammenhang beschranken wir uns auf die praktisch wichtigsten Fra- 
gen der Zulassigkeit diagnostischer MaBnahmen sowie der rechtlichen Uberpriifung 
der MaBnahmen und der Entscheidungen, die sich darauf sttitzen. Andere Aspekte, 
wie die Rechtsnatur diagnostischer Tatigkeit, Haftungsprobleme oder Spezialfragen 
der Eignungsdiagnostik und der Betatigung als Gerichtsgutachter, die nur einen lo- 
sen Bezug zur Padagogisch-psychologischen Diagnostik haben, bleiben hier ausge- 
klammert (s. dazu Kiihne, 1987; Jessnitzer, 1988; Gaul, 1992; Zuschlag, 1992). 
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11.2.1 Zur Zulassigkeit Padagogisch-psychologischer Diagnostik 

Der rechtliche Rahmen, in dem sich die Padagogisch-psychologische Diagnostik be- 
wegen kann, ist in der Bundesrepublik durch das Grundgesetz (GG) von 1949 abge- 
steckt (s. Kasten auf dieser Seite). Art. 1 Abs. 1 GG erklart die Menschenwiirde fur 
unantastbar und verpflichtet alle staatliche Gewalt, sie zu achten und zu schiitzen. Die 
in Art. 2 GG verbrieften allgemeinen Personlichkeitsrechte auf freie Entfaltung und 
Unversehrtheit sind ein weiterer verfassungsrechtlich wichtiger MaBstab. In die Frei- 
heitsrechte des Individuums darf nur auf der Grundlage von Gesetzen eingegriffen 
werden. Das allgemeine Personlichkeitsrecht schiitzt die Privatsphare des Burgers vor 
Ausforschung. In Verbindung damit setzen auch andere Grundrechte der Padagogisch- 
psychologischen Diagnostik Schranken. Vor dem Informationszugriff grundsatzlich 
geschtitzt sind Glaubensiiberzeugungen (Art. 4 Abs. 1 GG) und die familiaren Ver- 
haltnisse (Art. 6 Abs. 1 GG); ebensowenig sind Erhebungen zulassig, die der elterli- 
chen Erziehungsverantwortung (Art. 6 Abs. 2 GG) zuwiderlaufen (Avenarius, 1990). 
Sollen zu Untersuchungszwecken Auskiinfte erhoben werden, die die Privatsphare 
oder den Intimbereich beriihren, darf dies nur anonym auf freiwilliger Basis und bei 
Minderjahrigen mit Einwilligung der Erziehungsberechtigten geschehen. Ohnehin 
bedarf es in der Regel der besonderen Genehmigung durch die Schulaufsichtsbehor- 
de (s. weiter unten). 



Verfassungsrechtliche Rahmenvorschriften 

Auszug aus dem Grandrechtskatalog des Gmndgesetzes firr die Bundesrepublik 
Deutschland vom 23. Mai 1949 

Art. 1. [Schutz der Menschenwiirde] (1) Die Wiirde des Menschen ist unantastbar. Sie 
zu achten und zu schiitzen ist Verpflichtung aller staatlichen Gewalt. 

(...) 

Art. 2. [Freiheitsrechte] (1) Jeder hat das Recht auf freie Entfaltung seiner Personlich- 
keit, soweit er nicht die Rechte anderer verletzt und nicht gegen die verfassungsmaBige 
Ordnung oder das Sittengesetz verstoBt. 

(2) Jeder hat das Recht auf Leben und korperliche Unversehrtheit. Die Freiheit der 
Person ist unverletzlich. In diese Rechte darf nur auf Grand eines Gesetzes eingegriffen 
werden. 

(...) 

Art. 4. [Glaubens- und Bekenntnisfreiheit] (1) Die Freiheit des Glaubens, des Gewis- 
sens und die Freiheit des religiosen und weltanschaulichen Bekenntnisses sind unver- 
letzlich. 

(...) 

Art. 6. [Ehe und Familie, nichteheliche Kinder] (1) Ehe und Familie stehen unter dem 
besonderen Schutze der staatlichen Ordnung. 

(2) Pflege und Erziehung der Kinder sind das naturliche Recht der Eltern und die 
zuvorderst ihnen obliegende Pflicht. Uber ihre Betatigung wacht die staatliche Gemein- 
schaft. 

(...) 

Art. 19. [Einschrankung von Grundrechten] 

(...) 

(4) Wird jemand durch die offentliche Gewalt in seinen Rechten verletzt, so steht ihm 
der Rechtsweg offen. Soweit eine andere Zustandigkeit nicht begriindet ist, ist der 
ordentliche Rechtsweg gegeben. (...) 
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Rechtsvorschriften, die Schuler zur Teilnahme an diagnostischen MaBnahmen, ins- 
besondere an Testverfahren, verpflichten, schranken das Recht auf informationelle 
Selbstbestimmung ein. Die Einschrankung muB daher dem rechsstaatlichen Gebot der 
VerhaltnismaBigkeit geniigen. Die Kriterien dafiir sind die Geeignetheit, die Erforder- 
lichkeit und die Zumutbarkeit der MaBnahme. Der Verwendungszweck der zu erhe- 
benden Daten muB bereichsspezifisch und prazise bestimmt sein; die Daten diirfen 
nur im Rahmen dieser Zweckbindung verwendet werden (nach Avenarius, 1990, S. 
33-34). Demzufolge darfallein das nach MaBgabe der Fragestellung notwendige Ver- 
fahren angewendet werden; dies auch nur, soweit es - neben seiner Eignung fur den 
vorgesehenen Zweck - den Schulern zugemutet werden kann. Die Fragestellung ih- 
rerseits muB sich selbstverstandlich an den Rahmen des Zulassigen halten, der durch 
Gesetz oder Rechtsverordnung vorgegeben ist. Andere Daten mitzuerheben, ist nicht 
gestattet. 

Uneingeschrankt zulassig sind offenbar nur die pflichtgemaB abzugebenden Leh- 
rerurteile. Dies ist zwar logisch konsequent, empirisch wie rechtlich jedoch fragwiir- 
dig, weil Lehrerurteile ein subjektives Verfahren darstellen, das Verhalten und Lei- 
stungen von Schulern lediglich auf dem Niveau von Schatzskalen unklarer Giite 
wiedergibt. Ihre “Geeignetheit” fur Fragestellungen von groBer Tragweite, z.B. bei 
Einschulungs-, Umschulungs- oder Versetzungsentscheidungen, ist zweifelhaft, zu- 
mal ein breites Spektrum uberpriifter objektiver Methoden zur Verfiigung steht. Von 
daher verwundert es, daB sich die Frage der rechtlichen Zulassigkeit diagnostischer 
MaBnahmen einseitig auf die instrumentell meist besseren Testverfahren konzentriert. 

In einigen Bundeslandern konnen Lehrer und/oder Schulpsychologen auf der 
Grundlage von Bestimmungen in den Schulgesetzen und Rechtsverordnungen objek- 
tive Leistungsmessungen mit obligatorischer Teilnahme vornehmen. Bei der Feststel- 
lung der sog. Schulreife und der Entscheidung iiber die Sonderschuleinweisung sind 
die Schuler durchweg verpflichtet, sich einer diagnostischen Untersuchung zu unter- 
ziehen. Dies schlieBt die Anwendung von Testverfahren ein (Avenarius, 1990). 

Anders liegen die Dinge im Falle der individuellen Schullaufbahn- und Bildungs- 
beratung durch Beratungslehrer oder Schulpsychologen sowie der Beratung bei Lern- 
und Verhaltensstorungen durch Schulpsychologen. Sie wird zumeist auf eigenen 
Wunsch oder freiwillig in Anspruch genommen. Das Spektrum der zulassigen diagno- 
stischen Verfahren ist hier weiter gefaBt und kann neben den Leistungs- auch psycho- 
metrische Personlichkeitstests und projektive Methoden umfassen. AuBer Schul- 
leistungstests, die von Lehrem durchgefuhrt werden diirfen, ist die Anwendung 
Psychologen, teilweise auch Lehrem mit Zusatzausbildung (Beratungslehrer, Sonder- 
schullehrer), vorbehalten (s. Kasten S. 237; Beispiel Hessen). 



11.2.2 Zur rechtlichen Kontrolle diagnostischer MaBnahmen 

Als Teil des staatlichen Verwaltungshandelns konnen diagnostische MaBnahmen von 
Aufsichtsbehorden innerhalb der Verwaltung (Exekutive) und von Instanzen der 
Rechtsprechung (Judikative) kontrolliert werden. Grundlegend filr die rechtliche 
Beurteilung ist der in Art. 19 Abs. 4 GG garantierte Schutz des Burgers vor Rechts- 
verletzung durch die offentliche Gewalt (s. Kasten S. 235). 
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Beispiel Hessen 

Tests und Erhebungen in Schulen; hier: Durchfuhrung durch Lehrer. ErlaB vom 
25.9.1985 (Amtsblatt des Hessischen Kultusministers (...), 38, 800-801) 

I. 

1. Zur Feststellung des Lemerfolges und von Lemdefiziten konnen in der Schu- 
le zwei Arten von Schulleistungstests durchgefuhrt werden: 

a. Standardisierte Schulleistungstests (...) 

b. Informelle Schulleistungstests (...) 

Diese Tests diirfen von Lehrem durchgefuhrt werden, wenn ihnen Moglichkei- 
ten und Grenzen der Testanwendung in der Schule allgemein bekannt sind und 
wenn sie die Methoden der Testdurchfiihrung, -auswertung und -interpretation 
sicher beherrschen. 

(...) 

2. Die Durchfuhrung anderer als der in Abs. 1 genannten Tests (z.B. Intelligenz- 
und Begabungstests) bedarf der Zustimmung der Erziehungsberechtigten oder 
der volljahrigen Schuler. Sie sind auf die Freiwilligkeit der Angaben hinzuwei- 
sen. Aus einer Verweigerung von Angaben entstehen keine Rechtsnachteile. Der 
Schulelternbeirat ist zu unterrichten. Die Testergebnisse sind den Erziehungs- 
berechtigten und den volljahrigen Schtilem auf Verlangen bekanntzugeben. Sol- 
che Tests sollen wegen der besonderen Schwierigkeiten bei der Durchfuhrung 
und der Interpretation der Ergebnisse nur durch besonders ausgebildete Lehrer 
in Absprache mit dem Schulpsychologischen Dienst oder durch Schulpsycho- 
logen durchgefuhrt werden. Vorkehrungen zur Wahrung des Datenschutzes sind 
zu treffen. 

(...) 



IV 

Schiilerbefragungen mit verschiedenen Erhebungsmethoden (Fragebogen, 
Schatzskalen, Interviewtechniken u.a.) und Datenerhebungen nach wissen- 
schaftlichen Grundsatzen bediirfen der Zustimmung bzw. Anordnung des Staat- 
lichen Schulamtes. Die Zustimmung ist nur dann zu erteilen, wenn wissenschaft- 
liche Kriterien angemessen beriicksichtigt werden, wenn sichergestellt ist, daB 
die Freiwilligkeit der Beteiligung und die Anonymitat der Befragten gewahrt 
bleiben sowie deren Privatsphare nicht beruhrt wird und wenn die Befragung 
bzw. Erhebung schulischen oder padagogischen Zwecken dient und durch sie 
keine unangemessene Beeintrachtigung des Unterrichts erfolgt. Bei Befragung 
Minderjahriger miissen die Erziehungsberechtigten zustimmen. Absatz 1.2, Satz 
2 und 3, gelten entsprechend. Andere Untersuchungen durch Lehrer oder Schii- 
lervertretungen zur Erforschung von Meinungen, Einstellungen und Werthaltun- 
gen bediirfen unter Beachtung der Bestimmungen der Allgemeinen Konferenz- 
ordnung der Zustimmung des Schulleiters. 

V. 

Die Durchfuhrung von Verfahren, deren Anwendung ein abgeschlossenes Stu- 
dium der Psychologie voraussetzen, sind Lehrem in der Schule nicht gestattet. 
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Zu diesen Verfahren gehoren: 

A) Leistungstests 

1. Intelligenztests (...) 

2. Allgemeine Leistungstests (...) 

3. Tests zur Priifung spezieller Funktionen und Fahigkeiten (...) 

B) Psychometrische Personlichkeitstests 

1. Personlichkeits-Struktur-Tests (...) 

2. Einstellungs- und Interessentests (...) 

3. Klinische Tests (...) 

C) Projektive Verfahren (Entfaltungstests) 

1. Formdeuteverfahren (...) 

2. Verbalthematische Verfahren (...) 

3. Gestaltungs- und Wahlverfahren (...) 

Abweichend davon diirfen Sonderschullehrer solche Testverfahren in der 
Schule durchfuhren, die sie nachweisbar wahrend ihrer Ausbildung anzuwen- 
den gelemt haben und fur die eine Zustimmung der Erziehungsberechtigten 
vorliegt. 

(...) 



Die gerichtliche Uberpriifung erstreckt sich in der Regel auf formale, fur Schule 
und Diagnostik unspezifische Aspekte. Wegen fehlender gesetzlicher Regelung wird 
nach richterlichem Gewohnheitsrecht gepriift, 

(a) ob von falschen Tatsachen ausgegangen wurde 

(b) ob die geltenden Verfahrensvorschriften beachtet worden 
sind 

(c) ob die Entscheidungstrager sich von sachfremden Einflussen haben leiten 
lassen und 

(d) ob allgemein anerkannte BewertungsmaBstabe beachtet wurden. 

Eine rechtliche Kontrolle der inhaltlichen padagogischen oder psychologischen 
Komponente findet in der Regel nicht statt (Berkemann, 1989). Das padagogische 
oder psychologische Fachurteil gilt als juristisch nicht iiberprufbar. Man raumt den 
Fachleuten einen Beurteilungsspielraum ein, der sich der rechtlichen Bewertung ent- 
ziehe. Es wird iiberwiegend davon ausgegangen, daB es allgemein verbindliche, ob- 
jektive Regeln und Kriterien der Leistungsbeurteilung nicht gibt. 

Diese Argumentation wird zu Recht bezweifelt, u.a. mit dem Hinweis auf die For- 
schungslage und die Existenz praxisreifer Prototypen fur ein diagnostisches Vorge- 
hen, das sich auf einen breiten fachwissenschaftlichen Konsens stiitzen kann (Krapp, 
1989). Welche Konsequenzen daraus gezogen werden sollen, erscheint offen. Krapp 
wamt vor voreiligen Entscheidungen. Er empfiehlt, das Instrumentarium der richter- 
lichen Kontrolle vorsichtig und schrittweise zu verbessern. Dies sei moglich, weil die 
anerkannten Bewertungsgrundsatze, die fur eine rechtliche Normierung benotigt 
werden, fur Teilbereiche der Leistungsdiagnostik bereits vorlagen oder aufgestellt 
werden konnten. Dem konnen wir nur beipflichten. 

Die administrative Kontrolle diagnostischer MaBnahmen ist in erster Linie eine 
Angelegenheit der Fachaufsicht. Im Unterschied zur Dienstaufsicht hat die Fachauf- 
sicht das Verwaltungshandeln, einschlieBlich der Ermessenshandhabung, nach fach- 
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spezifischen Kriterien auf seine Sachgerechtheit und ZweckmaBigkeit zu priifen. 
Neben der Wiirdigung von Einzelfallentscheidungen - wie in der Regel bei der ge- 
richtlichen Kontrolle - geht es hier auch um die Beurteilung von Untersuchungsvor- 
haben, Verfahrensweisen und Methoden. Die Fachaufsicht wird von der vorgeordne- 
ten der nachgeordneten Behorde gegeniiber ausgeiibt und umfaBt auBer der 
Informations- und Kontrollbefugnis auch die Weisungsbefugnis und das Recht zur 
Aufhebung von Entscheidungen. 

Fur die schulpsychologischen Dienste besteht insofem grundsatzliche Weisungs- 
abhangigkeit, als ihnen untersagt oder auferlegt werden kann, bestimmte diagnosti- 
sche MaBnahmen zu treffen oder bestimmte Methoden anzuwenden. Fur die Wirk- 
samkeit der Weisung ist dabei rechtlich unerheblich, ob der Weisungsbefugte iiber 
Fachkompetenz verfiigt und die Weisung fachlichen Kriterien standhalt. In einigen 
Bundeslandern sind die Schulpsychologen jedoch im Hinblick auf die Datengewin- 
nung und die Erstellung von Gutachten ausdriicklich weisungsfrei gestellt (vgl. Kiih- 
ne, 1987, Teil 1 $ 5, Teil 11 § 2b). 

Die Anwendung diagnostischer Methoden bei wissenschaftlichen U ntersuchungen 
im Schulbereich unterliegt daruber hinaus generell der Kontrolle durch Schulauf- 
sichtsbehorden. Bundesweit hat sich die Praxis durchgesetzt, die Durchfiihrung em- 
pirischer Studien durch Externe nicht mehr der Vereinbarung vor Ort und damit dem 
Ermessen der Lehrer oder der Schulen zu iiberlassen. Die Vorhaben bediirfen der 
vorherigen Genehmigung durch Minister oder Regierungsprasidenten. Dies wird in 
erster Linie mit dem Schutz der Schulen vor unzumutbarer Belastung durch ein Uber- 
maB an Untersuchungen begriindet. 

Die grundgesetzlich verbiirgte Forschungsfreiheit (Art. 5 Abs. 3 GG) verpflichtet 
zwar den Staat zur Mitwirkung, indem er den Zugang zum Forschungsfeld eroffnet; 
die vom Forscher eingeforderte Kooperationsverpflichtung konkurriert jedoch mit der 
Verpflichtung, einen storungsfreien Schulbetrieb und Unterrichtsablauf zu gewahr- 
leisten (vgl. Avenarius, 1980). Die z.T. restriktive Handhabung von Antragen hat 
allerdings den Eindruck aufkommen lassen, manche Schulbehorden wollten das 
Bildungswesen mit vorgeschobenen Griinden gegen Untersuchungen “abschotten” 
(Ingenkamp, 1980). 

Die Genehmigung wird in der Regel davon abhangig gemacht, daB die Untersu- 
chung wissenschaftlichen Anspriichen genugt, keine unzumutbare Belastung fur 
Schule, Schuler und Lehrer darstellt und, vor allem wenn sie wahrend des Unterrichts 
durchgefiihrt werden soil, daB sie padagogisch relevant ist. Die Antrage miissen ne- 
ben der detaillierten Projektbeschreibung alle Erhebungsunterlagen (Tests, Fragebo- 
gen u.a.) enthalten. Weitere iibliche Auflagen betreffen die Wahrung von Anonymitat 
und Freiwilligkeit, den Schutz der Intimsphare und im Regelfall die Einwilligung der 
Erziehungsberechtigten (s. z.B. Hessischer Kultusminister, 1987). Das Verfahren er- 
moglicht die fachaufsichtliche Einwirkung auf das Projekt, hat eine bedenkliche for- 
schungssteuernde Wirkung und macht representative empirische Untersuchungen 
nahezu unmoglich. Ftir einen vemiinftigen Ausgleich zwischen den konkurrierenden 
Rechtsgiitern und eine gedeihliche Kooperation zwischen Wissenschaft und Schul- 
behorde empfiehlt Avenarius ( 1980), die Rahmenbedingungen fur den Zugang zu den 
Schulen gesetzlich zu prazisieren und fur das Genehmigungsverfahren Gutachteraus- 
schiisse einzurichten. 
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11. Berufsethische und rechtliche Aspekte 



Zusammenfassung 

Berufsethische Richtlinien sollen zum einen gewahrleisten, daB die diagnostische 
Praxis, ihrer Bedeutung entsprechend, hohen professionellen Standards geniigt, zum 
anderen konnen sie im Hinblick auf die doppelte Verantwortung gegeniiber Indivi- 
duum und Gesellschaft Orientierungshilfen bieten. Sie konnen dem Diagnostiker aber 
nicht die Verantwortung fur sein Handeln abnehmen. 

Dem diagnostischen Handeln sind aus dem Grundgesetz ableitbare rechtliche 
Schranken gesetzt. In die allgemeinen Personlichkeitsrechte des Burgers darf nicht 
unbefugt eingegriffen werden. Zu den geschutzten Rechten gehort das Recht auf in- 
formationelle Selbstbestimmung. Diagnostische MaBnahmen und die darauf gestiitz- 
ten Entscheidungen konnen gerichtlich auf formale Mangel im Vorgehen uberpriift 
werden. Ihre padagogisch-psychologische ZweckmaBigkeit unterliegt der fachauf- 
sichtlichen Kontrolle durch iibergeordnete Behorden. 

Diagnostische Erhebungen im Rahmen wissenschaftlicher Untersuchungen an 
Schulen sind genehmigungspflichtig. Die Schulen sollen vor unzumutbaren Belastun- 
gen bewahrt werden. Die Genehmigung kann mit Auflagen verbunden sein. 



Weiterfiihrende Literatur: 

Blanke, Th. & Sterzel, D. (1991). Menschenwurde und Tests: Voraussetzungen und 
Grenzen ihrer rechtlichen Zulassigkeit. In S. Grubitzsch (Hrsg.), Testtheorie - Test- 
praxis. Psychologische Tests und Priifverfahren im kritischen Uberblick (S. 325- 

372). Reinbek: Rowohlt. 

Heckel, H. & Avenarius, H. (1986). Schulrechtskunde (6. Aufl.). Neuwied: Luchter- 
hand. 

Lecher, Th. (1988). Datenschutz und psychologische Forschung. Gottingen: Hogre- 
fe. 

Riegel, R. (1988). Datenschutz in der Bundesrepublik Deutschland. Heidelberg: von 
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Indikatorvariablen 25, 213, 214, 228 
Individualisierung, 

Individualitatsprinzip 15, 17, 18, 35 
Individuallage 17 
Inferenzfehler 221, 223-225 
innere Konsistenz 24, 46, 47, 95 
Instinktverhalten 26 
Instruktion 31 

Intelligenz, Intelligenzquotient 21, 22, 23, 24, 25, 
27,31,33, 34, 37, 59, 237, 238 
Intelligenz-Struktur-Test 49, 56, 67, 77, 92, 152 
Interaktion, s. Wechselwirkung 
Intimbereich 235, 239 
Introversion 24 

Istwert (Istzustand 17, 26, 32, 37, 208, 215, 228 
Itemcharakteristik 131, 143, 146, 147, 148, 156, 
160 

Itemparameter 143, 147, 150, 151, 153, 154, 155, 
156, 157, 164, 165, 166, 171, 172. 173 
Itempool 132, 152 
Itemsampling 120, 121 
Itemschwierigkeit 143, 152, 153, 216 
Itemtrennscharfe 143 

Kausalattribuierung 25, 27, 37, 214, 222, 223-224 
Klassenarbeiten 31, 35, 215, 221, 222, 226 
Klassifikation 22, 106, 130, 205-206, 207-208 
Klima, padagogisches, s. Sozialklima 
kognitive Leistungsfahigkeit,s. Intelligenz 
Kommunalitat 87, 89, 92, 93, 94 
Kommunalitatenproblem 87, 104 
Kommunalitatenschatzung 92 
Kompetenz, diagnostische 214 
didaktische 214 

Konfidenzintervall 47, 48, 55, 112, 113, 125, 131, 
190 

Konsistenz 99 
Konsistenz, innere, 
s. innere Konsistenz 
Konstrukte, diagnostische 25, 27-28, 29 
Konstruktvaliditat 49, 50, 85 
Kontrasteffekt 221, 226 
Kontrolldichte, s. MeBdichte 
Kontrolle, administrative 238-239 
Korrelationsfehler 225 
Kovarianz 25, 28, 30 
Kreuzvalidierung 79, 82 
kriterienorientierte Messung 123, 124, 126, 132, 
133, 215 

kriterienorientierter Test 123, 124, 126 
Kriterium 24, 32, 34, 37, 50, 51, 77, 78, 81, 83, 
138, 140, 180 

Kritische Differenz 48, 65, 66, 67, 68, 70, 170 
Kurzzeit-Lemtest 179, 181, 183 

Labilitat, emotionale 24, 29, 34 
Ladung, s. Faktorladung 
Langzeit-Lemtest 179, 180, 181, 183 
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Latent-Class-Analyse 158, 174 
Latent-Class-Modell 143, 156, 157, 159, 160, 
167, 174 

Latent-Trait-Ansatz 25, 27, 143, 157, 160, 182 
Latent-Trait- Modell 144, 146, 147, 159, 163, 

164, 171. 182 
latentes Kontinuum 

= latente Dimension 144, 147, 148, 160, 215 
Lehrermerkmale 213, 214 
Lehrerurteil(e) 

(s. auch Schulnoten) 33, 34, 205, 212-214, 
219, 228, 236 
Lehrplan, s. Curriculum 
Lehrplangilltigkeit.s. Validitat, curriculare 
Lehrziele 123, 124, 125, 126, 128, 129, 205, 
207-211, 215-218, 228 

Lehrzielhierarchie 207-211. 215, 216-218, 219 
Lehrzielmatrix 127, 208, 209-211, 218 
Lehrzielorientierter Test 126, 132, 222 
Lehrzieltaxonomie 127, 207 
Leistungsmessung 205, 215-220, 221, 236-238 
Leistungsmotivation 15, 24, 25, 27, 208, 

211 - 212 , 222 
Leistungsprufsystem 92 
leniency-effect, s. Milde-Effekt 
Lernbehinderung, lembehindert 32, 37, 206, 224 
Lemeffekt 169, "l70 
Lemen 

globales 172, 182 
itemspezifisches 172, 173, 182 
operationsspezifisches 172, 182 
Lernfortschritt 125, 126, 172, 178, 215-218 
Lemkontrolle 206 
Lemsteuerung 206 
Lerntest 178M80, 182, 183 
Lerntransfer 218, 222 
Lemvoraussetzungen 206, 214 
Lernziel 127, 207^ 208, 21 1-212 
-operationalisierung 127 
Lernzielorientierter Test 130 
Lese-Rechtschreib-Schwache 37 
linear-logistisches Modell 143, 151, 152, 156, 
160, 164, 169, 171, 172, 173 
LLRA-Modell 157, 160 
Lob und Tadel 222 
logische Fehler 221, 225 
logistische Funktion 151 
logistisches Modell 147, 156, 157 
lokale Unabhangigkeit 

= lokale stochastische Unabhangigkeit 143, 
145, 146, 147, 157, 160 

Losungswahrscheinlichkeit 131, 144, 146, 147, 
148, 157, 170, 176, 177, 216 

Mannheimer Test zur Erfassung des 

physikalisch-technischen Problemlosens 150, 
151 

Marburger Verhaltensliste 158 



maBgeschneiderte Diagnostik 217 
Menschenbild 22 
Menschenkenntnis 20, 21 
Menschenwurde 235, 240 
Merkmal 15, 17, 22-32 
Definition 23 
Merkmale, latente 25, 27 
(s. auch latent traits) 

Merkmalsprofile 28, 29, 64, 65 
Merkmalsstabilitat 19, 24, 30, 31, 32, 33, 37, 223 
MeBdichte 205, 217-221, 228 
MeSfehler 25, 41, 42, 43, 66, 75, 93, 1 13, 173, 
189, 190, 191 

MeBfehlerkorrelation 1 88 
MeBgenauigkeit, s. innere Konsistenz, 

Reliabilitat 

MeBoperation 27, 30-32 

MeBzeitpunkt 205, 216-218, 228 

Methoden-Faktoren 102, 104 

Mikrolehrziel 208, 218 

Milde-Effekt 227 

Minderungskorrektur 52, 190 

MiBbrauch 232 

Moderatorvariable 24, 26 

multiple Korrelation 78, 79, 81, 83 

multiple Regression 77, 79, 80, 81, 82, 83, 180 

Multitrait-Multimethod-Matrix 100 

mtindliche Leistungen, 

Priifungen 224, 226 

Nachtest-Vortest-Differenz 185, 187, 192, 194, 195 

Nachtigall-Effekt 222 

Nahe-Effekt 225 

Nebenwirkungen 205, 220-223 

Netto-Nutzen 219 

Neurotizismus 

(s. auch Labilitat, emotionale) 24 
nominell parallele Tests 120 
Normalverteilung 53, 55, 57, 59, 68, 71, 131 
Normen 32-33, 207 
Normierung 37, 57, 60, 111, 115, 126 
normorientierte Messung 123, 126, 132 
normorientierter Test 123, 126 
Numerus clausus 33, 34, 222 

Objektivitat 31, 43, 44, 52, 55, 111, 114, 199 
Auswertungs- 31, 44, 121 
Durchfiihrungs- 31, 44 
Interpretations- 44 
odd-even-Methode 46, 47 

Okonomie, Okonomisierung 30-31, 216, 217, 219 
operationale Definition 23, 27, 28, 31, 205, 207, 
208, 212, 215 

Optimierungsprinzip 18, 35, 205 

Padagogik, experimentelle 18 
Parallelisierung 196, 197 
Parallelitat 1 1 8 
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Paralleltestmethode 47 
Parameter, diagnostische 216-218 
Parameterschatzung 148, 171 
Person 19, 22-23, 26, 28, 30 
Personparameter 147, 148, 150, 153, 154, 155, 

156, 157, 160, 164, 165, 166, 171, 172, 173, 
182, 189 

Person(en)wahmehmung 18-20, 224-227, 228 
Personlichkeitsforschung 30 
Personlichkeitsmerkmale 19, 21, 24-25, 26, 29, 
30, 219, 227 

Personlichkeitsrechte 235-236, 240 
Personlichkeitstest(s) 28, 29, 34, 236, 238 
Personlichkeitstheorie 28, 29, 225 
Phasen, sensible 26 

Populationsabhangigkeit 52, 56, 93, 104 
Positionseffekt 221, 226 
Pradiktor(en) 24, 32, 34, 37, 77, 83, 140 
Prazisierung der Merkmale 15, 22-30, 35 
der MeBoperationen 15, 22, 30-33, 35 
primacy-recency-effects, s. Anfangs- und 
Endbetonung 
Privatsphare 235, 237 
Profilhohe 64, 65 
Prognose, s. Vorhersage 
Programmeffekt 186, 187 
Progressiver Matrizen Test 164 
Prozentrang 57 

proximity-error, s. Nahe-Effekt 
Psychologengesetz 230 
Psychomotorik 24, 26 
Pygmalion-Effekt 224 

Qualitatskriterien, s. Giitestandards 
Quotenplane 134, 141, 142 

Rangplatz 189 

Rasch-Modell 131, 143, 146, 147, 148, 150, 151, 
152, 153, 154, 156, 160, 164, 169, 171, 172, 173 
mehrkategoriales 143, 153, 154, 155, 156, 

157, 160 ^ 

Rasch-Skala 176 
Ratewahrscheinlichkeit 156 

rechtliche Priifung 229, 233, 234, 236, 238-239, 
240 

Rechtsvorschriften 214, 229 
Referenzfehler 221, 227 
Reflexe 26 

Regression(s) 50, 51, 53, 57, 69, 70, 137, 139 
-effekt 185, 186, 193, 194, 195, 196 
-gerade 135, 136, 138 
-linie 136, 138 
-gewichte 78, 79, 80, 81 
-koefftzient 50 
-konstante 50, 78, 137, 138 
-Schatzung 69, 136, 193 
Regression, multiple, s. multiple Regression 
Reihenfolge-Effekte 226 



Reliabilitat 21, 30-32, 33, 43, 45, 47, 51, 52, 53, 
56,71,72,73,74, 111, 112, 113, 114, 117, 
123, 124, 125, 126, 143, 167, 179, 188, 189, 
190, 191, 220, 223 
Paralleltest- 45, 46 
Testhalbierungs- 45 
Testwiederholungs- 45, 56 
Reliabilitatsbestimmung 45, 47 
Reproduzierbarkeitskoeffizient 1 44 
Residualgewinn 192, 193 
Residuen 87, 96, 101 
Richtziele 208, 213 

Rosenzweig-Picture-Frustration-Test 1 54 
Rotation 90, 92, 93, 96 
Rotationsproblem 87, 90, 104 
Riickbindungseffekt 220-221 
Ruckmeldung(sfunktion) 35, 206, 214, 222, 224 
Riickwarts-Strategie, s. Riickwartsselektion 
Riickwartsselektion 78, 82 

Schatzurteile, Schatzverfahren 36, 205, 214, 227, 
236 

Schulaufsicht 238-239 
Schuleingangsdiagnostik, s. 
Einschulungsdiagnosdk 

Schulerfolg, Schulleistung 24, 28, 34, 37, 205, 
212-215,219,228 
Schiilermerkmale 213-214, 228 
schulisches Schicksal 215 
Schulleistungstests, objektive 35, 214, 218, 219, 
222, 236, 237 

Schulmerkmale 213-214, 228 
Schulnoten 24, 33, 34, 131, 212-214, 222, 227 
Schulpsychologen 236, 237, 239 
Schulversagen 24 
Schwarz-WeiB-Malerei 227 
Schweigepflicht 232, 233-234 
Schwierigkeitsparameter 131, 148, 160, 164, 171, 
173 

Selbstbestimmung, informationelle 236, 240 
Selektionseffekt 197 
Selektionsquote 72, 73 

self-fulfilling prophecy, s. sich selbst erfullende 
Vorhersage 

sich selbst erfullende Vorhersage 224 
Simultane Uberlagerung 94, 95, 104 
Single linkage 107 
Situation 28, 30, 213 
Skalenniveau 24, 32, 36 
Skalenprobleme 179, 185, 188 
Skalentransformation 

(s. auch Transformation) 188, 189 
Sollwert, Sollzustand 17, 32, 206, 207, 215, 228 
Sonderschulbediirftigkeit 32, 236 
Sonderschullehrer 236, 238 
soziale Erwiinschtheit 34 
soziale Kognition 227 
Sozialklima 24, 221 
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sozialpsychologische Effekte 221-222, 228 

Sozialschicht 24 

Sozialverhalten 212, 224 

Spearman-Brown-Formel 46 

spezifische Objektivitat 143, 148, 150, 152, 160 

spezifische Reliabilitat 118 

spezifischer wahrer Wert 118 

spezifischer MeBfehler 118, 119 

Spezifitat 99 

Standardisierung 30-31, 35, 220 
StandardmeBfehler 47, 55, 123, 125 
Standardschatzfehler 51, 55, 57 
Standardwerte 59 
Stanine-Werte 59, 74 
Stereotype 224 
Stichprobenfehler 75 
Stigmatisierung, soziale 221 
Strenge-Effekt 227 

T-Werte 59, 166 

Tautologie, tautologisch 27 

Temperament, s. Personlichkeitseigenschaften 

Tendenz zur Mitte 227 

Test, diagnostischer, Definition 37 

Testbatterie 63, 74, 82 

Testfaimess 134, 135, 139, 140 

Testfaimess-Konzept 141 

prognose-orientiertes 134, 138, 140, 141, 142 
Testfamilie 118, 120, 121, 132 
Testtheorie, klassische 41, 42, 43, 45, 52, 55, 117, 
124, 125, 126, 143, 169, 170, 171, 182, 220 
Testverfahren, projektive 24, 154, 236, 238 
Testverfahren, standardisierte 

(s. auch Schulleistungstests, objektive) 214, 
222, 224, 228, 236, 237-238 
Testwiederholungsmethode 47 
Theoriefehler 221, 225 
Therapie, padagogisch-psychologische 17 
Trait-Faktoren 102, 104 
Transformation 59, 60, 65, 80, 150, 188 
Trefferquote 72, 73 
Trennscharfenkoeffizient 124 
Trennscharfeparameter 156, 160 
Tylermatrix 127, 130, 209, 210 

Ubergangszustand 215, 216-217, 228 
U-Koeffizient 123, 124, 125, 126 
Ubergangsentscheidungen 34, 206, 236 
Ubereinstimmungskoeffizient, s. U-Koeffizient 
Umwelt 23, 24, 25-26 
Uniqueness 92 

Universitat, Zulassung zur 33, 34 
Unterrichtsplanung 207-211 
Untertest-Selektion 79 
Urteilsfehler, -tendenz 205, 221, 226-227 



Validitat 15, 21, 24, 31, 33-35, 43, 48, 49, 51, 52, 
53,56, 85,95, 104, 111, 114, 115, 123, 124, 
125, 141, 143, 165, 167, 199, 219, 224 
Augenschein- 48 

curriculare 35, 208, 216, 219, 222, 228 
diskriminante 49, 50, 100 
inhaltliche 48, 123, 126, 129, 132 
Konstrukt- 34, 50, 85 
konvergente 49, 100 
Kriteriums- 34 
logische 48 

pradiktive, prognostische 34, 206 
Ubereinstimmungs- 50 
Variable, s. Merkmal 
Varimax-Kriterium 92 

Veranderung 32, 169, 170, 174, 175, 176, 179, 
182, 185, 186, 190, 192, 193, 199,220 
Veranderungsfragebogen des Erlebens und 
Verhaltens 175 

Veranderungsmessung 37, 206 
direkte 175, 178, 182 
indirekte 175, 178, 182 
Verdiinnungsformel 52 

V erhaltensmodifikation, padagogisch- 

psychologische 17 
Verhaltensstichprobe 31, 37 
VerhaltnismaBigkeit 236 
Verifizierung 15, 33-35 
Verlaufsdiagnostik, s. Veranderungsmessung 
Verwaltungshandeln, staatliches 229, 236 
Verwertungszusammenhang 34, 35, 222 
Vorhersage, Leistungs-, Verhaltens- 20, 24, 26, 

27, 31-32, 36, 37, 206 

V ortest-Nachtest-Differenz, 

s. Nachtest-Vortest-Differenz 
Vorwarts-Strategie 

(s. auch Vorwartsselektion) 78 
Vorwartsselektion 82 

wahre Varianz 189 

wahrerWert 41, 42, 43, 47, 53, 112, 170, 190, 191 
Wechselwirkung 25, 28, 30, 214, 220 
Weisung(sbefugnis) 239 

z-Wert 57, 58, 59, 64, 65, 69 
Z-Wert 59 

Zahlen-Verbindungs-Test 49, 56 
Zensierungsmodell 131 
Zentroid 107 

Zeugnis(se), s. auch Schulnoten 24, 33, 34 
Zeugnisverweigerungsrecht 233-234 
Zulassigkeit 235-236 
Zumutbarkeit 236 
zureichende Diagnostik 219 
Zuverlassigkeit, s. Reliabilitat 
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Verwaltungshandeln, staatliches 229, 236 
Verwertungszusammenhang 34, 35, 222 
Vorhersage, Leistungs-, Verhaltens- 20, 24, 26, 

27, 31-32, 36, 37, 206 

V ortest-Nachtest-Differenz, 

s. Nachtest-Vortest-Differenz 
Vorwarts-Strategie 

(s. auch Vorwartsselektion) 78 
Vorwartsselektion 82 

wahre Varianz 189 

wahrerWert 41, 42, 43, 47, 53, 112, 170, 190, 191 
Wechselwirkung 25, 28, 30, 214, 220 
Weisung(sbefugnis) 239 

z-Wert 57, 58, 59, 64, 65, 69 
Z-Wert 59 

Zahlen-Verbindungs-Test 49, 56 
Zensierungsmodell 131 
Zentroid 107 

Zeugnis(se), s. auch Schulnoten 24, 33, 34 
Zeugnisverweigerungsrecht 233-234 
Zulassigkeit 235-236 
Zumutbarkeit 236 
zureichende Diagnostik 219 
Zuverlassigkeit, s. Reliabilitat 




